Zookeeper的崩溃恢复问题

wjy0

2018-10-20

关注关注

背景

UDDB（UCloud分布式数据库）产品的测试环境中有一个zk集群，三节点。某一天其中一个zk节点所在云主机崩溃了，无法启动。只好重装系统盘。

zk的执行码在系统盘上。为此重新安装了zk软件。 apt-get install zookeeper 即可。

zk的配置文件（zoo.cfg），三节点都是一样的，从其他zk节点拷贝一份过来即可。

zk存储的数据在数据盘上。根据zk的崩溃恢复机制，存储的老数据可以删除，在zk重启后由其他zk节点再同步过来即可。

因此，从开始到结束，执行了以下操作：

1. apt-get install zookeeper

2. 修改/etc/hosts ，配置ip 和zoo.cfg中主机名的对应关系：

zoo.cfg中的配置是：

server.1=10-10-182-162:2888:3888

server.2=10-10-150-34:2888:3888

server.3=10-10-149-63:2888:3888

于是在/etc/hosts增加：

10.10.182.162 10-10-182-162

10.10.150.34 10-10-150-34

10.10.149.63 10-10-149-63

3.删除了zk的老数据:

rm -rf /data/zookeeper/version-2

但保持/data/zookeeper/myid 这个文件不变（用来存储这个zk节点的id)。

4.启动zk:

cd /usr/share/zookeeper/bin

bash zkServer.sh stop

bash zkServer.sh start

zk进程能够成功启动，但是启动后用zkCli.sh 登陆，无法 ls /:

查看/var/log/zookeeper/zookeeper.log，有以下报错：

查看网上资料，指出该问题原因大多为新启动的zk节点无法加入到集群中。但是为何无法加入，原因各异，又始终无法和我这个问题匹配起来。

分析

带着这个问题，查看了另外2个zk节点的日志，其中有：

注意到红框中的日志。从该日志看，像是底层网络就出现异常了。为何会出现异常？我lsof -p 三个zk进程，发现第一个崩溃重启后的进程，其3888端口竟然是：

是绑定了localhost端口。

再看下 /etc/hosts 发现之前的配置是有问题的：

在增加：

10.10.182.162 10-10-182-162

10.10.150.34 10-10-150-34

10.10.149.63 10-10-149-63

时，忘记删除 127.0.0.1 10-10-182-162 这个配置项。导致10-10-182-162这个主机名，依然解析到127.0.0.1。

解决

把该配置项删除，然后重启zk节点，问题得到解决，通过zkÇli.sh 执行： ls / 没有问题。

总结

1.zk节点崩溃后重启，不需要先同步数据（直接把之前老的数据删除即可），在zk重启后，将从其他zk节点自动同步数据；

2.配置时一定要仔细，查问题时多看日志多用心分析。

Zookeeper的崩溃恢复问题

双臂问问题

zk zookeeper集群

wjy0

0 关注 0 粉丝 0 动态

关注关注

关于zookeeper

zookeeper可以作为dubbo的注册中心。一般都是以奇数个zookeeper集群的形式。几个主要知识点。znode，是zk的数据的最小单元，也包含了属性，zk的所有数据都保存在内存里，结构是一棵树，所以就像文件一样用路径来访问，例如/D/dd/s。w

deyu 2020-07-07

zookeeper实现分布式锁

. . public static final String ZK_ADDR = "192.168.0.230:2181";public static fina

枫叶上的雨露 2020-04-30

从入门到精通的ActiveMQ（三）

前面2篇博客地址如下：《从入门到精通的ActiveMQ（一）》、《从入门到精通的ActiveMQ（二）》。注意到只有Master对外提供了服务，Slave是待机状态。当Master出现故障，ZK内部的选举机制，会让一个Slave升级成Master对外提供服

Java高知 2020-04-22

关于分布式系统的连环炮二

通过分布式锁保证执行顺序。Zk就可以做分布式系统之间的协调工作，系统A在zk上注册一个对某个节点的值变化的监听器，当系统B执行完请请求后，系统A就可以通过zk马上知道它发送的请求的执行结果。

Fightingxr 2020-02-12

spark streaming读取kakfka数据手动维护offset

在spark streaming读取kafka的数据中，spark streaming提供了两个接口读取kafka中的数据，分别是KafkaUtils.createDstream，KafkaUtils.createDirectStream，前者会自动把of

adayan0 2020-01-31

彻底讲清楚ZooKeeper分布式锁的实现原理

之前写过一篇文章，给大家说了一下Redisson这个开源框架是如何实现Redis分布式锁原理的，这篇文章再给大家聊一下ZooKeeper实现分布式锁的原理。同理，我是直接基于比较常用的Curator这个开源框架，聊一下这个框架对ZooKeeper分布式锁的

CobingLiu 2020-01-10

zookeeper学习(八)

　　　在ubutun上用了一下ZK的java的api．感觉不错，挺好用的．当然首先要启动ZK服务器．。System.out.println("目录节点状态：[" + zk.exists("/testRootPath"

大牧关东 2014-06-18

zookeeper简单操作命令

下面的是zookeeper的一些操作命令。创建新节点命令：create. ctime = Tue May 13 08:30:22 PDT 2014. mtime = Tue May 13 08:33:45 PDT 2014

潘威威 2014-05-13

Java大型互联网架构-分布式系统服务框架Zookeeper介绍与原理实现

Zookeeper的工作集群可以简单分成两类，一个是Leader，唯一一个，其余的都是follower，如何确定Leader是通过内部选举确定的。对于每个zk节点而言，可以看做每个zk节点的命名空间是一样的，也就是有同样的数据。如果Leader挂了，zk集

CobingLiu 2019-11-05

Zookeeper分布式入门——ZK分布式锁的简单实现

InterProcessMutex基于Zookeeper实现了分布式的公平可重入互斥锁，类似于单个JVM进程内的ReentrantLock. //获得了锁 public static boolean acquire{ try { return mutex.

KingfuL 2019-10-27

Zabbix实战-简易教程--中间件ZooKeeper监控

通过zabbix trapper方式监控，之前看到网友们都是通过定时任务进行主动上传数据，但是，zabbix还有另外一神器--自动发现，也能达到同样的功能。Zookeeper version: 3.4.6-1569965, built on 02/20/2

CobingLiu 2019-10-25

zk集群剩下过半才可提供服务的说法

只有一台无法实现选主，无法集群：3台服务器组成集群，其中两台关闭仅剩一台，则客户端无法连接上zookeeper. 就是说如果有2个zookeeper，那么只要有1个死了zookeeper就不能用了，因为1没有过半，所以2个zookeeper的死亡容忍度为0

Stereo 2019-05-06

activemq多个集群用zk(单个)+networkconnect（集群之间）

zk可以完成自己的选主，在mq结合zk的时候zk通过节点排他锁的特性---谁先获取节点谁为master来帮mq自动选主，切换。两个集群联合使用一般单个群用zk,群之间用networkconnection透传---多集群负载均衡。该值表示多个消费者订阅一个相

Jolestar 2018-12-25

zookeeper之环境搭建

zk的可执行脚本目录，包括zk服务进程，zk客户端，等脚本。其中，.sh是Linux环境下的脚本，.cmd是Windows环境下的脚本。zoo_sample.cfg为样例配置文件，需要修改为自己的名称，一般为zoo.cfg。log4j.properties

hudyang 2017-04-07

zookeeper之环境搭建

如果帮到您了，请支付宝首页输入548980984领个红包，支持下！zk的可执行脚本目录，包括zk服务进程，zk客户端，等脚本。一些用于操作zk的工具包。时长单位为毫秒，为zk使用的基本时间度量单位。例如，1 * tickTime是客户端与zk服务端的心跳时

加号Jaryn笔录 2017-04-07

java高性能rpc，企业级rpc，zk调度，负载均衡，泛化调用一体的rpc服务框架

koalas-RPC个人作品，提供大家交流学习，有意见请私信，欢迎拍砖。市面上常见的RPC框架很多，grpc，motan，dubbo等，但是随着越来越多的元素加入，复杂的架构设计等因素似使得这些框架和spring一样，虽然号称是轻量级，但是用起来却是让我们

fxinzi 2019-08-01

ZooKeeper 命令使用

[zk:localhost:2181(CONNECTED)30]ls2/taobao-pamirs-schedule/huijin

ZooKeeper 2016-06-17

ZooKeeper系列之二:Zookeeper常用命令

ZooKeeper支持某些特定的四字命令字母与其的交互。它们大多是查询命令，用来获取ZooKeeper服务的当前状态及相关信息。用户在客户端可以通过telnet或nc向ZooKeeper提交相应的命令

ZooKeeper 2015-10-23

ZooKeeper-- 管理分布式环境中的数据

监控集群和作业状态；可以充分的利用ZK的独有特性，熟悉程度决定应用高度。节点具有一个访问控制列表来约束访问操作，即具有权限控制

MichaelHsu 2014-09-06

zk集群剩下过半才可提供服务的说法

zcanxue 2019-05-06

安科网

Zookeeper的崩溃恢复问题

wjy0

wjy0

相关推荐

关于zookeeper

zookeeper实现分布式锁

从入门到精通的ActiveMQ（三）

关于分布式系统的连环炮二

spark streaming读取kakfka数据手动维护offset

彻底讲清楚ZooKeeper分布式锁的实现原理

zookeeper学习(八)

zookeeper简单操作命令

Java大型互联网架构-分布式系统服务框架Zookeeper介绍与原理实现

Zookeeper分布式入门——ZK分布式锁的简单实现

Zabbix实战-简易教程--中间件ZooKeeper监控

zk集群剩下过半才可提供服务的说法

activemq多个集群用zk(单个)+networkconnect（集群之间）

zookeeper之环境搭建

zookeeper之环境搭建

java高性能rpc，企业级rpc，zk调度，负载均衡，泛化调用一体的rpc服务框架

ZooKeeper 命令使用

ZooKeeper系列之二:Zookeeper常用命令

ZooKeeper-- 管理分布式环境中的数据

zk集群剩下过半才可提供服务的说法

wjy0