zeromq使用注意点滴

1.关于介绍zeromq的就不说了,可以自己去看官方guide很详细

2.主要说下在使用过程中需要注意的地方

1)使用如果使用c++的接口的时候,在你自己的类中或者apache模块中

需要将zmq::context_t 对象定义在zmq::socket_t对象的前面,这样可以保证销毁的顺序

2)使用sub-pub时候,如果sub没有调用setsockopt设置过滤项(设置NULL则接受所有),那么将会接收不到任何的消息,默认会阻塞所有消息

3)如果是后台服务集群使用且zmq需要bind端口的,那么最好在iptables中进行下过滤,不要让外部链接

连接过来,否则会造成cpu空转;关于cpu空转将会在最后说

4)客户端连接服务器时,每个客户端中的zmq,每个连接使用一个socket,虽然可以一个socket可以调用connect多次,也就是连接多个server。但是,记住,最好是一个socket只调用一次connect

5)使用zmq的程序,运行一段时间后(可能几天),如果你碰到异常退出,并且你使用nohup运行的log

nohup.out中显示zeromq connection timeout,那么你可以zeromq/src/tcp_socket.cpp文件中的203行看是write的时候出错。

  1. int zmq::tcp_socket_t::write (const void *data, int size) 
  2.     ssize_t nbytes = send (s, data, size, 0); 
  3.  
  4.     //  Several errors are OK. When speculative write is being done we may not  
  5.     //  be able to write a single byte to the socket. Also, SIGSTOP issued  
  6.     //  by a debugging tool can result in EINTR error.  
  7.     if (nbytes == -1 && (errno == EAGAIN || errno == EWOULDBLOCK || 
  8.           errno == EINTR)) 
  9.         return 0; 
  10.  
  11.     //  Signalise peer failure.  
  12.     if (nbytes == -1 && (errno == ECONNRESET || errno == EPIPE)) 
  13.         return -1; 
  14.  
  15.     errno_assert (nbytes != -1); 
  16.     return (size_t) nbytes; 

这是由于 errno_assert (nbytes != -1);造成的,但是,真正的原因是nbytes==-1时,errno==ETIMEDOUT ,在前面一行中没有去添加对这个timeout的判断,另外,可以参考该文件中对win上的处理。因此,这里如果你碰到了timeout错误,那么请将errno == ETIMEOUT加入到errno==EPIPE后面,然后重新编译

6)关于cpu空转。首先你可以用top 程序名,去看你的程序的cpu使用率是否是100%,而且基本固定不变,那么这时候,你就需要怀疑是否你的程序的问题,然后通过lsof -p 程序的进程号,去查看是否有文件描述符有can't identify protocol,还要注意下,是否有外网的ip连接到你的zmq的监听的端口。

然后,你可以在zeromq/src/epoll.cpp中的loop,rm_fd,add_fd函数中打log,看看在监听到EPOLLERR|EPOLLHUP

的文件描述符是不是lsof -p 查看到的can't identify protocol的文件描述符一致。其实,只要做到前面5点,那么cpu

空转基本是不会出现的。

ps:最后,希望碰到问题,大家能自己思考为什么会出现这样的问题,该如何解决,对自己的提升会有很大的帮助。

相关推荐