orchestrator raft leader频繁变化问题

setse

2020-07-05

最近在使用orchestrator的过程中，遭遇了严重的问题。
最初上线的几个月里，raft leader非常稳定。
但随着时间的推移，raft leader 频繁变化的问题就爆发了。

leader的变化，直接原因，就是leader没有按时发送heartbeat，从而触发了选举机制。

第一个怀疑的原因，就是网络抖动，出现丢包。但是，通过查看监控数据，发现没有丢包迹象。接着，通过tcpdump抓包，也证实没有数据丢失。

第二个怀疑的是，raft的代码实现有问题。查看github仓库，已经很长时间没有release了。翻看issue，找到2个相似的，但这些issue没有追查询下去，最后没有什么具体结论就关闭了。

第三个怀疑的是，系统负载和内存使用。
从监控数据看，16核机器，负载在1左右徘徊。16G内存，空闲率在30%-50%，偶尔某台机器低于10%。
从这些数据看，无法确切判定，就是机器资源耗尽导致的。

接着使用pprof查看goroutine、内存情况，并抓trace，发现snapshot操作出现大量堆积，多的时候有9000+goroutine。
在内存使用上，snapshot也是消耗最多的。
由于频繁申请大量内存，GC次数和耗时出现严重增加。
这样，就影响了goroutine的调度，尤其是对时间敏感的goroutine，例如hearbeat，导致其发送时间延后。

关于snapshot的为什么消耗内存，下次再具体介绍。

setse

0 关注 0 粉丝 0 动态

相关推荐

Raft算法原理剖析

简单理解的话，可以想象成是一组服务器，每个服务器是一个状态机，服务器的运行状态只能通过一行行的命令来改变。每一个状态机存储一个包含一系列指令的日志，严格按照顺序逐条执行日志中的指令，如果所有的状态机都能按照相同的日志执行指令，那么它们最终将达到相同的状态。

setse 2020-07-04

raft算法总结

分布式系统除了提升整个体统的性能外还有一个重要特征就是提高系统的可靠性。提供可靠性可以理解为系统中一台或多台的机器故障不会使系统不可用。保证系统可靠性的关键就是多副本，一旦有多副本，那么久面临多副本之间的一致性问题。业界最著名的一致性算法就是大名鼎鼎的Pa

setse 2020-05-04

raft

最近工作中讨论到了Raft协议相关的一些问题，正好之前读过多次Raft协议的那paper，所以趁着讨论做一次总结整理。分布式系统除了提升整个体统的性能外还有一个重要特征就是提高系统的可靠性。提供可靠性可以理解为系统中一台或多台的机器故障不会使系统不可用。一

遗世紫丁香 2020-04-30

对标Eureka的AP一致性，Nacos如何实现Raft算法

Raft 适用于一个管理日志一致性的协议，相比于 Paxos 协议 Raft 更易于理解和去实现它。为了提高理解性，Raft 将一致性算法分为了几个部分，包括领导选取、日志复制、安全，并且使用了更强的一致性来减少了必须需要考虑的状态。Follower被动响

86103155 2020-02-16

Paxos算法为什么说是Raft,Zab协议的鼻祖，及原理解析

paxos算法在分布式领域具有非常重要的地位。但是Paxos算法有两个比较明显的缺点：1.难以理解 2.工程实现更难。网上有很多讲解Paxos算法的文章，但是质量参差不齐。看了很多关于Paxos的资料后发现，学习Paxos最好的资料是论文《Paxos Ma

abun 2020-01-16

Raft ABC之二

基于Raft 的分布式一致性协议是构建很多分布式服务的基础，某种程度上它充当了心脏的角色，为此有必要对Raft 的一些难点进行深入理解。如果前者还小，拒绝这次vote 请求，否则投赞成票。为了避免同时有两个节点变更正在进行，在有未committed的cha

遗世紫丁香 2020-01-11

Hyperledger Fabric动态配置Raft节点

最近看官方文档发现新的共识算法etcdRaft允许动态添加或删除排序节点，所以也花了一天时间操作了以下，写篇文章把整个过程记录一下。初始网络本文设置了4个Orderer节点，1个Peer节点,然后动态添加第五个Orderer节点。第二部分是更新Fabric

ShiShuo 2019-12-31

基于 raft 协议的 RocketMQ DLedger 多副本日志复制设计原理

上一篇源码分析 RocketMQ DLedger(多副本) 之日志复制(传播) ，可能有不少读者朋友们觉得源码阅读较为枯燥，看的有点云里雾里，本篇将首先梳理一下 RocketMQ DLedger 多副本关于日志复制的三个核心流程图，然后再思考一下在异常情

MojitoBlogs 2019-12-17

RocketMQ 多副本前置篇：初探raft协议

Raft协议是分布式领域解决一致性的又一著名协议，主要包含Leader选举、日志复制两个部分。通常情况下，三个节点中会有一个节点的计时器率先到期，节点状态变为 Candidate ，候选者状态下的节点会发起选举投票。我们先来考虑只有一个节点变为Candid

86103155 2019-12-05

Zab Paxos raft

《分布式系统理论进阶 - Paxos》介绍了一致性协议Paxos，今天我们来学习另外两个常见的一致性协议——Raft和Zab。通过与Paxos对比，了解Raft和Zab的核心思想、加深对一致性协议的认识。Paxos偏向于理论、对如何应用到工程实践提及较少。

abun 2016-12-05

常用共识算法总结（Paxos，Raft，PBFT，PoW，PoS，DPoS，Ripple）

共识算法看了又忘，一直觉得理解的不够到位，特此记录，出错处望指正，不胜感激。先说结论不同共识算法的特点：PoW 拼命搬砖PoS 股份制谁股份多谁牛xDPoS 人大代表制度Paxos，Raft，PBFT 队列操练，通过相互间的消息与口令达成步调的一致，

兒戲BLOG 2019-11-04

分布式配置服务etcd VS 分布式协调服务zookeeper

etcd是一个高可用的键值存储系统，主要用于共享配置和服务发现。etcd是由CoreOS开发并维护的，灵感来自于 ZooKeeper 和 Doozer，它使用Go语言编写，并通过Raft一致性算法处理日志复制以保证强一致性。Google的容器集群管理系统K

阿义 2017-03-10

分布式一致性协议之Raft（一）

Raft算法解决的核心问题是在分布式环境下如何保持集群状态的一致性，简而言之就是一组服务，给定一组操作，最后得到一致的结果。Raft算法通过选举领导人，由领导人复制日志到跟随者，跟随者执行日志指令来达到最后集群状态的一致，整个算法也分成了两部分，领导人如何

setse 2019-09-08

SOFAJRaft-RheaKV MULTI-RAFT-GROUP 实现分析 | SOFAJRaft 实现原理

SOFAStackScalable Open Financial Architecture Stack是蚂蚁金服自主研发的金融级分布式架构，包含了构建金融级云原生架构所需的各个组件，是在金融场景里锤炼出来的最佳实践。SOFAJRaft 是一个基于 Raft

MinerAG 2019-09-06

Raft

面向多个决策达成一致的问题,分解了Leader选举,日志复制和安全方面的考虑,并通过约束减少了不确定的状态空间。一个Raft集群通常包含5个服务器,允许系统有两个故障服务器.服务器处于leader,follower和candidate这三个状态之一.

hhahaa 2018-12-25

raft协议——分布式一致性协议

　　下面将看论文时我认为的重要点进行记录。选出 Leader 后，Leader 通过定期向所有 Follower 发送心跳信息维持其统治。这个阶段 Leader 挂掉，数据属于未提交状态，Client 不会收到 Ack 会认为超时失败可安全发起重试。所以拥

来信了上校 2018-07-25

阿里云InfluxDB® Raft HybridStorage实现方案

背景阿里云InfluxDB®是阿里云基于开源版InfluxDB打造的一款时序数据库产品，提供更稳定的持续运行状态、更丰富强大的时序数据计算能力。

兒戲BLOG 2019-07-11

编写你的第一个 Java 版 Raft 分布式 KV 存储

本文旨在讲述如何使用 Java 语言实现基于 Raft 算法的，分布式的，KV 结构的存储项目。该项目的背景是为了深入理解 Raft 算法，从而深刻理解分布式环境下数据强一致性该如何实现；该项目的目标是：在复杂的分布式环境中，多个存储节点能够保证数据强一致

exzhulw 2019-07-04

TiKV 源码解析（六）raft-rs 日志复制过程分析

在《TiKV 源码解析（二）raft-rs proposal 示例情景分析》中，我们主要介绍了 raft-rs 的基本 API 使用，其中，与应用程序进行交互的主要 API 是：。本文将对数据冗余复制的过程进行详细展开，特别是关于 snapshot

setse 2019-07-01

raft算法学习记录

分布式系统中考虑得最多的一个问题：节点崩溃raft算法中节点分三类： leader、follower、candidate。其中最复杂的问题都和leader节点崩溃有关，follower和candidate简单直观。任期大者，更新任期相同者，index大者更

setse 2019-07-01

setse

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号