Storm 集群异常的解决

背景:5台机器,部署storm计算节点,2台机器drpc节点.环境如下:

Storm:0.7.1

Linux:CentOS5.5

Java:jdk1.6.37

问题:storm集群总是在运行一段时间后某些节点停止工作,工作进程退出.

解决过程:

1.查看storm日志

发现storm抛出如下异常:

worker[ERROR]Erroroninitializationofservermk-workerjava.lang.RuntimeException:org.zeromq.ZMQException:Invalidargument(0x16)

atclojure.lang.LazySeq.sval(LazySeq.java:47)

atclojure.lang.LazySeq.seq…

1.将ZeroMQ降级

通过Google搜索,发现有很多人问这个问题,nathanmarz的建议是将ZeroMQ的版本降级为2.1.7;原来系统使用的3.0.2,降级为2.1.7后发现仍然存在这个问题,基本可以排除是由于ZeroMQ导致的.

1.升级Storm

2.Storm升级至0.7.2后,仍然存在问题.看来是安装部署的问题

3.真正的原因

4.,查看日志,重新安装.总算发现了问题出在DNS服务上,5台计算节点使用内部的DNS服务,但是这台DNS服务器不够稳定,改成静态域名解析后问题不再出现。

这是做dayoou.com这个项目的时候遇到的问题,贡献出来供众看官批评啦。

相关推荐