突发宕机，Kafka写入的数据如何保证不丢失？

jidenide

2019-03-13

上周分享的一篇文章《Kafka如何实现每秒上百万的超高并发写入?》，相信大家都知道了写入 Kafka 的数据是会落地写入磁盘的，这篇给大家聊下写入 Kafka 的数据该如何保证其不丢失?

突发宕机，Kafka写入的数据如何保证不丢失？

我们暂且不考虑写磁盘的具体过程，先大致看看下面的图，这代表了 Kafka 的核心架构原理。

突发宕机，Kafka写入的数据如何保证不丢失？

Kafka 分布式存储架构

那么现在问题来了，如果每天产生几十 TB 的数据，难道都写一台机器的磁盘上吗?这明显是不靠谱的啊!

所以说，这里就得考虑数据的分布式存储了，我们结合 Kafka 的具体情况来说说。

在 Kafka 里面，有一个核心的概念叫做“Topic”，这个 Topic 你就姑且认为是一个数据集合吧。

举个例子，如果你现在有一份网站的用户行为数据要写入 Kafka，你可以搞一个 Topic 叫做“user_access_log_topic”，这里写入的都是用户行为数据。

然后如果你要把电商网站的订单数据的增删改变更记录写 Kafka，那可以搞一个 Topic 叫做“order_tb_topic”，这里写入的都是订单表的变更记录。

然后假如说咱们举个例子，就说这个用户行为 Topic 吧，里面如果每天写入几十 TB 的数据，你觉得都放一台机器上靠谱吗?

明显不太靠谱，所以 Kafka 有一个概念叫做 Partition，就是把一个 Topic 数据集合拆分为多个数据分区，你可以认为是多个数据分片，每个 Partition 可以在不同的机器上，储存部分数据。

这样，不就可以把一个超大的数据集合分布式存储在多台机器上了吗?大家看下图，一起来体会一下。

突发宕机，Kafka写入的数据如何保证不丢失？

Kafka 高可用架构

但是这个时候，我们又会遇到一个问题，就是万一某台机器宕机了，这台机器上的那个 Partition 管理的数据不就丢失了吗?

所以说，我们还得做多副本冗余，每个 Partition 都可以搞一个副本放在别的机器上，这样某台机器宕机，只不过是 Partition 其中一个副本丢失。

如果某个 Partition 有多副本的话，Kafka 会选举其中一个 Parititon 副本作为 Leader，然后其他的 Partition 副本是 Follower。

只有 Leader Partition 是对外提供读写操作的，Follower Partition 就是从 Leader Partition 同步数据。

一旦 Leader Partition 宕机了，就会选举其他的 Follower Partition 作为新的 Leader Partition 对外提供读写服务，这不就实现了高可用架构了?

大家看下面的图，看看这个过程：

突发宕机，Kafka写入的数据如何保证不丢失？

Kafka 写入数据丢失问题

现在我们来看看，什么情况下 Kafka 中写入数据会丢失呢?其实也很简单，大家都知道写入数据都是往某个 Partition 的 Leader 写入的，然后那个 Partition 的 Follower 会从 Leader 同步数据。

但是万一 1 条数据刚写入 Leader Partition，还没来得及同步给 Follower，此时 Leader Partiton 所在机器突然就宕机了呢?

大家看下图：

突发宕机，Kafka写入的数据如何保证不丢失？

如上图，这个时候有一条数据是没同步到 Partition0 的 Follower 上去的，然后 Partition0 的 Leader 所在机器宕机了。

此时就会选举 Partition0 的 Follower 作为新的 Leader 对外提供服务，然后用户是不是就读不到刚才写入的那条数据了?

因为 Partition0 的 Follower 上是没有同步到最新的一条数据的。这个时候就会造成数据丢失的问题。

Kafka 的 ISR 机制是什么?

现在我们先留着这个问题不说具体怎么解决，先回过头来看一个 Kafka 的核心机制，就是 ISR 机制。

这个机制简单来说，就是会自动给每个 Partition 维护一个 ISR 列表，这个列表里一定会有 Leader，然后还会包含跟 Leader 保持同步的 Follower。

也就是说，只要 Leader 的某个 Follower 一直跟他保持数据同步，那么就会存在于 ISR 列表里。

但是如果 Follower 因为自身发生一些问题，导致不能及时的从 Leader 同步数据过去，那么这个 Follower 就会被认为是“out-of-sync”，被从 ISR 列表里踢出去。

所以大家先得明白这个 ISR 是什么，说白了，就是 Kafka 自动维护和监控哪些 Follower 及时的跟上了 Leader 的数据同步。

Kafka 写入的数据如何保证不丢失?

所以如果要让写入 Kafka 的数据不丢失，你需要保证如下几点：

每个 Partition 都至少得有 1 个 Follower 在 ISR 列表里，跟上了 Leader 的数据同步。
每次写入数据的时候，都要求至少写入 Partition Leader 成功，同时还有至少一个 ISR 里的 Follower 也写入成功，才算这个写入是成功了。
如果不满足上述两个条件，那就一直写入失败，让生产系统不停的尝试重试，直到满足上述两个条件，然后才能认为写入成功。
按照上述思路去配置相应的参数，才能保证写入 Kafka 的数据不会丢失。

好!现在咱们来分析一下上面几点要求。

第一条，必须要求至少一个 Follower 在 ISR 列表里。

那必须的啊，要是 Leader 没有 Follower 了，或者是 Follower 都没法及时同步 Leader 数据，那么这个事儿肯定就没法弄下去了。

第二条，每次写入数据的时候，要求 Leader 写入成功以外，至少一个 ISR 里的 Follower 也写成功。

大家看下面的图，这个要求就是保证说，每次写数据，必须是 Leader 和 Follower 都写成功了，才能算是写成功，保证一条数据必须有两个以上的副本。

这个时候万一 Leader 宕机，就可以切换到那个 Follower 上去，那么 Follower 上是有刚写入的数据的，此时数据就不会丢失了。

突发宕机，Kafka写入的数据如何保证不丢失？

如上图所示，假如现在 Leader 没有 Follower 了，或者是刚写入 Leader，Leader 立马就宕机，还没来得及同步给 Follower。

在这种情况下，写入就会失败，然后你就让生产者不停的重试，直到 Kafka 恢复正常满足上述条件，才能继续写入。这样就可以让写入 Kafka 的数据不丢失。

总结

最后总结一下，其实 Kafka 的数据丢失问题，涉及到方方面面。

譬如生产端的缓存问题，包括消费端的问题，同时 Kafka 自己内部的底层算法和机制也可能导致数据丢失。

kafka 大数据 partition

jidenide

0 关注 0 粉丝 0 动态

相关推荐

【kafka】消费者对应的分配partition分区策略

解决问题：1.实现了负载均衡。现有两个主题topic1、topic2，各自都有三个partition。TopicAndPartition对象，多个主题整体排序[topic1_partition0,topic1_partition1,topic1_parti

guicaizhou 2020-08-01

Spark Streaming读取Kafka数据两种方式

Receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的，然后Spark Streaming启动的job会去处理那些数据。在提交Spark Streaming任务后，Spark集群会划出指定的Receivers来专门、持续不

rongwenbin 2020-06-15

.NET Core下使用Kafka的方法步骤

# 修改每个topic的默认分区参数num.partitions，默认是1，具体合适的取值需要根据服务器配置进程确定，UCloud.ukafka = 3. Segment：partition物理上由多个segment组成，下面2.2和2.3有详细说明。pa

Kafka 2020-09-18

架构师的选择，Pulsar还是Kafka？

最近，我一直在研究Pulsar及其与Kafka的比较。快速搜索将显示两个最著名的开源消息传递系统之间存在当前的"战争"。作为Kafka的用户，我确实对Kafka的某些问题感到困惑，并且我对Pulsar感到非常失望。在本文中，我将重点介绍

yanghuashuiyue 9评论 2020-11-14

Kafka之消费与心跳

导读kafka是一个分布式，分区的，多副本的，多订阅者的消息发布订阅系统，可以用于搜索日志，监控日志，访问日志等。今天小编来领大家一起来学习一下Kafka消费与心跳机制。Kafka提供了非常简单的消费API，使用者只需初始化Kafka的Broker Se

liuxingen 12评论 2020-11-13

刨根问底,Kafka消息中间件到底会不会丢消息

本文转载自微信公众号「爱笑的架构师」，作者雷架。大型互联网公司一般都会要求消息传递最大限度的不丢失，比如用户服务给代金券服务发送一个消息，如果消息丢失会造成用户未收到应得的代金券，最终用户会投诉。为避免上面类似情况的发生，除了做好补偿措施，更应该在系设计的

wangying 2020-11-13

记一次生产 Kafka 挂掉的那几分钟

本文转载自微信公众号「Java极客技术」，作者鸭血粉丝。Hello，大家好，我是阿粉，作为一个后端工程师不经历几次生产事故怎么能成长!阿粉工作几年来，大大小小，重要不重要的事故也经历了不少，有损失几十万的，有对业务毫无影响但是不应该发生的，每一次事故都是一

王谦 15评论 2020-11-03

面试 | 再有人问Kafka，别说你不会！

Kafka 是一个优秀的分布式消息中间件，许多系统中都会使用到 Kafka 来做消息通信。对分布式消息系统的了解和使用几乎成为一个后台开发人员必备的技能。今天就从常见的 Kafka 面试题入手和大家聊聊 Kafka 的那些事儿。生产者负责创建消息，然后将其

huangwei00 10评论 2020-10-14

RabbitMQ七战Kafka，差异立现！

作为一个有丰富经验的微服务系统架构师，经常有人问我，“应该选择RabbitMQ还是Kafka？”。基于某些原因，许多开发者会把这两种技术当做等价的来看待。的确，在一些案例场景下选择RabbitMQ还是Kafka没什么差别，但是这两种技术在底层实现方面是有

shenzhenzsw 2020-10-09

Kafka突然宕机了？稳住，莫慌！

问题要从一次 Kafka 的宕机开始说起。笔者所在的是一家金融科技公司，但公司内部并没有采用在金融支付领域更为流行的 RabbitMQ，而是采用了设计之初就为日志处理而生的 Kafka，所以我一直很好奇 Kafka 的高可用实现和保障。从 Kafka 部

guicaizhou 2020-09-30

监控kafka队列长度

#!df=pd.DataFrame(columnList,columns=["topics","LAG"]). dfResult=df.groupby("topics",as_index=Fals

jiaomrswang 2020-09-23

Kafka都没整明白，还敢去面试？

放眼当下数据为王的时代，深入了解 Apache Kafka 及其常见的部署应用，快速实现数据架构已是大势所趋，刻不容缓。以下分别 Kafka 架构，四大核心 API，典型应用场景，Kafka 代理与消息主题，集群的创建，流 APIs及其处理模式等不同方面展

jyj0 2020-09-21

SAP Data Intelligence里的Kafka Producer和Consumer

新建一个graph，使用典型的生产者-消费者模型：将Data Generator生成的数据交给kafka Producer operator；而Kafka Consumer从kafka producer里读取出data Generator生成的数据，通过T

guicaizhou 2020-09-15

kafka技术题

将向 Kafka topic 发布消息的程序成为 producers.将预订 topics 并消费消息的程序成为 consumer.Kafka 以集群的方式运行，可以由一个或多个服务组成，每个服务叫做一个 broker.producers 通过网络将消息发

hannuotayouxi 2020-08-20

kafka常见面试题

我们举个例子说明下运维中面对的复杂性，我们都知道 kafka 有个 ISR集合，我先说明下这个概念：

yangyutong00 2020-08-09

Windows 安装kafka

直接去 D:\Tool\zookeeper-3.4.14\bin，运行 zkServer.cmd. kafka-topics.bat --create --zookeeper localhost:2181 --replication-factor 1

amwayy 2020-08-03

【kafka】消费组消费主题

当消费组中的消费者数量大于分区数量时，会存在浪费。因为有消费者分配不到partition进行消费。在消费者不饱和的情况下，一个消费者是可以去消费多个分区的数据的。生产者生产投递9条消息，可以9条消息被投递到3不同分区，然后三个分区对应三个不同的消费者进行

yangyutong00 2020-08-01

logstash_output_kafka:Mysql同步Kafka深入详解

实际业务场景中，会遇到基础数据存在Mysql中，实时写入数据量比较大的情景。迁移至kafka是一种比较好的业务选型方案。如果需要同步历史全量数据+实时更新数据，建议使用logstash。实际上，核心logstash的同步原理的掌握，有助于大家理解类似的各种

weikaixxxxxx 2020-08-01

【kafka】生产者投递消息特征（异步发送）

kafka的生产者producer由持有未提交给kafka服务的记录的缓冲区构成一个缓冲区池，于此同时会有一个后台I/O线程来负责将这些记录record转化为请求request，然后将其提交给集群。如果发送完数据之后不对producer进行资源释放clos

PoppyEvan 2020-08-01

Kafka基础（八）：高效读写数据

Kafka 的 producer 生产数据，要写入到 log 文件中，写的过程是一直追加到文件末端，为顺序写。官网有数据表明，同样的磁盘，顺序写能到 600M/s，而随机写只有 100K/s。与磁盘的机械机构有关，顺序写之所以快，是因为其省去了大量磁头寻址

PoppyEvan 2020-07-29

jidenide

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号