为什么Twitter决定采用kafka作为其发布订阅系统？

游戏人日常

2018-12-02

关注关注

Twitter系统的实时性质为Twitter工程团队带来了独特而具有挑战性的问题。我们需要快速发布突发新闻，向用户提供相关广告，并解决许多其他实时用例。Twitter的Pub / Sub系统为Twitter团队提供了处理此工作负载的基础架构。

Twitter的Messaging团队过去几年一直在运行一个内部Pub / Sub系统EventBus（建立在Apache DistributedLog之上），但我们最近决定转向Apache Kafka，在这篇博文中，我们将讨论为什么我们选择采用Kafka作为Twitter的Pub / Sub系统以及我们在此过程中遇到的不同挑战。

什么是卡夫卡？

Apache Kafka是一个开源的分布式流媒体平台，可以以高吞吐量和低延迟传输数据。Kafka最初是在LinkedIn构思并于2011年开源的，并且从那时起被社区广泛采用，包括在其他公司，使其成为业界首选的事实上的实时消息系统。

Kafka的核心是基于日志构建的Pub / Sub系统，具有许多理想的属性，例如水平可伸缩性和容错性。从那以后，Kafka已经从消息系统发展成为一个成熟的流媒体平台（参见Kafka Streams）。

为什么迁移？

您可能想知道为什么Twitter首先选择构建内部消息传递系统。Twitter几年前实际上使用过Kafka（0.7），但是我们发现了它不适合我们的用例的问题 - 主要是在追赶读取期间进行的I / O操作的数量以及缺乏持久性和复制。然而，硬件和卡夫卡都已经经过了漫长的发展道路，现在已经解决了这些问题。

硬件的改进已经使SSD的价格足够便宜，这有助于我们在HDD上看到的随机读取的先前I / O问题，并且服务器NIC具有更多的带宽，使得分割服务和存储的吸引力降低图层（EventBus）。此外，较新版本的Kafka现在支持数据复制，提供我们想要的持久耐用性保证。

将所有Twitter的Pub / Sub用例迁移到一个全新的系统将是一个昂贵的过程。所以，自然而言，搬到卡夫卡的决定不是自发的，而是经过精心策划和数据驱动。迁移到卡夫卡的动机可归纳为两个主要原因：成本和社区。

成本

在整个公司宣布搬到Kafka的决定之前，我们的团队花了几个月的时间评估Kafka比较我们运行在EventBus上的类似工作负载 - 持久写入，拖尾读取，追赶读取和高扇出读取，以及一些灰色故障情况（例如，减慢群集中的特定代理）。

在性能方面，我们看到Kafka的延迟显着降低，无论吞吐量如何，从消息创建时到消费者阅读消息时的时间戳差异来衡量。

这可归因于几个因素，可能包括但不限于：

在EventBus中，服务层和存储层是分离的，这引入了额外的跳（网络时间和时间都通过JVM代理层），而在Kafka中只有一个进程处理存储和请求服务（参见下图））。
EventBus显式阻止对fsync（）调用的写入，而Kafka在后台依赖操作系统到fsync（）。
卡夫卡使用零拷贝。

从成本的角度来看，EventBus需要服务层（针对高网络吞吐量进行了优化）和存储层（针对磁盘进行了优化）的硬件，而Kafka使用单个主机来提供这两者。因此，EventBus需要更多的机器才能来提供与Kafka相同的工作负载。

对于单个消费者用例，我们节省了68％的资源，对于拥有多个消费者的扇出案例，我们节省了75％的资源。

一个问题是，对于极其带宽繁重的工作负载（非常高的扇出fanout 读取），EventBus理论上可能更有效，因为我们可以独立地扩展服务层。但是，我们在实践中发现，我们的扇出不够极端，不值得分离服务层，特别是考虑到现代硬件上的可用带宽。

社区

如上所述，卡夫卡已被广泛采用。这有助于我们首先让我们利用数百名开发人员为Kafka项目做出贡献的错误修复，改进和新功能，而不是工作在EventBus / DistributedLog上的八名工程师。此外，我们的Twitter客户在EventBus中想要的许多功能已经在Kafka中构建，例如流媒体库，至少一次HDFS管道，以及一次性处理。

此外，当我们在客户端或服务器上遇到问题时，我们可以通过快速搜索网络轻松找到解决方案，因为很可能其他人遇到了同样的问题。同样，对于不太受欢迎的项目来说，采用良好的项目的文档通常比文档更详尽。

采用和回馈卡夫卡等热门项目的另一个重要方面是招聘目的。一方面，通过回馈卡夫卡，人们可以了解Twitter的工程。另一方面，由于新工程师已经熟悉该技术，因此为团队招聘工程师要容易得多。这消除了EventBus所需的任何必要的加速时间。

挑战

尽管转移到卡夫卡的声音，但这并不是一帆风顺的。我们在这个过程中遇到了许多技术挑战和适应性挑战。

从技术角度来看，我们遇到的一些挑战包括配置调优和Kafka Streams库。与许多分布式系统一样，为了支持Twitter的实时用例，需要对大量配置进行微调。在运行Kafka Streams时，我们发现Kafka Streams库中的元数据大小存在一些问题，这些问题是由于过时的客户端在关闭后仍然保留其元数据。

另一方面，Kafka与EventBus存在架构差异，这要求我们以不同方式配置系统和调试问题。这方面的一个例子是如何在EventBus（仲裁写入）和Kafka（主从复制）中完成复制。写请求在EventBus中并行发送，而Kafka要求从节点仅在主机收到写请求后才复制写请求。此外，两个系统之间的持久性模型是非常不同的 - EventBus仅在数据持久化（fsync'd）到磁盘时确认写入，而Kafka表明复制本身将保证持久性并且数据持久存储在磁盘上之前就确认写入请求。

期待

在接下来的几个月里，我们的计划是将我们的客户从EventBus迁移到Kafka，这将有助于降低运营Twitter Pub / Sub系统的成本，并使我们的客户能够使用Kafka提供的其他功能。我们将持续关注生态系统中的不同消息传递和流媒体系统，并确保我们的团队为我们的客户和Twitter做出正确的决策，即使这是一个艰难的决定。

为什么Twitter决定采用kafka作为其发布订阅系统？

kafka eventbus h1 twitter 扇出

游戏人日常

0 关注 0 粉丝 0 动态

关注关注

Kafka、Flume、Kinesis更多的流方式支持，包括Twitter、ZeroMQ等

可线性伸缩至超过数百个节点；实现亚秒级延迟处理；可与Spark批处理和交互式处理无缝集成；提供简单的API实现复杂算法；更多的流方式支持，包括Kafka、Flume、Kinesis、Twitter、ZeroMQ等。Spark在接收到实时输入数据流后，将数据

jiaomrswang 2020-06-26

.NET Core下使用Kafka的方法步骤

# 修改每个topic的默认分区参数num.partitions，默认是1，具体合适的取值需要根据服务器配置进程确定，UCloud.ukafka = 3. Segment：partition物理上由多个segment组成，下面2.2和2.3有详细说明。pa

Kafka 2020-09-18

架构师的选择，Pulsar还是Kafka？

最近，我一直在研究Pulsar及其与Kafka的比较。快速搜索将显示两个最著名的开源消息传递系统之间存在当前的"战争"。作为Kafka的用户，我确实对Kafka的某些问题感到困惑，并且我对Pulsar感到非常失望。在本文中，我将重点介绍

yanghuashuiyue 2020-11-14

Kafka之消费与心跳

导读kafka是一个分布式，分区的，多副本的，多订阅者的消息发布订阅系统，可以用于搜索日志，监控日志，访问日志等。今天小编来领大家一起来学习一下Kafka消费与心跳机制。Kafka提供了非常简单的消费API，使用者只需初始化Kafka的Broker Se

liuxingen 2020-11-13

刨根问底,Kafka消息中间件到底会不会丢消息

本文转载自微信公众号「爱笑的架构师」，作者雷架。大型互联网公司一般都会要求消息传递最大限度的不丢失，比如用户服务给代金券服务发送一个消息，如果消息丢失会造成用户未收到应得的代金券，最终用户会投诉。为避免上面类似情况的发生，除了做好补偿措施，更应该在系设计的

wangying 2020-11-13

记一次生产 Kafka 挂掉的那几分钟

本文转载自微信公众号「Java极客技术」，作者鸭血粉丝。Hello，大家好，我是阿粉，作为一个后端工程师不经历几次生产事故怎么能成长!阿粉工作几年来，大大小小，重要不重要的事故也经历了不少，有损失几十万的，有对业务毫无影响但是不应该发生的，每一次事故都是一

王谦 2020-11-03

面试 | 再有人问Kafka，别说你不会！

Kafka 是一个优秀的分布式消息中间件，许多系统中都会使用到 Kafka 来做消息通信。对分布式消息系统的了解和使用几乎成为一个后台开发人员必备的技能。今天就从常见的 Kafka 面试题入手和大家聊聊 Kafka 的那些事儿。生产者负责创建消息，然后将其

huangwei00 2020-10-14

RabbitMQ七战Kafka，差异立现！

作为一个有丰富经验的微服务系统架构师，经常有人问我，“应该选择RabbitMQ还是Kafka？”。基于某些原因，许多开发者会把这两种技术当做等价的来看待。的确，在一些案例场景下选择RabbitMQ还是Kafka没什么差别，但是这两种技术在底层实现方面是有

shenzhenzsw 2020-10-09

Kafka突然宕机了？稳住，莫慌！

问题要从一次 Kafka 的宕机开始说起。笔者所在的是一家金融科技公司，但公司内部并没有采用在金融支付领域更为流行的 RabbitMQ，而是采用了设计之初就为日志处理而生的 Kafka，所以我一直很好奇 Kafka 的高可用实现和保障。从 Kafka 部

guicaizhou 2020-09-30

监控kafka队列长度

#!df=pd.DataFrame(columnList,columns=["topics","LAG"]). dfResult=df.groupby("topics",as_index=Fals

jiaomrswang 2020-09-23

Kafka都没整明白，还敢去面试？

放眼当下数据为王的时代，深入了解 Apache Kafka 及其常见的部署应用，快速实现数据架构已是大势所趋，刻不容缓。以下分别 Kafka 架构，四大核心 API，典型应用场景，Kafka 代理与消息主题，集群的创建，流 APIs及其处理模式等不同方面展

jyj0 2020-09-21

SAP Data Intelligence里的Kafka Producer和Consumer

新建一个graph，使用典型的生产者-消费者模型：将Data Generator生成的数据交给kafka Producer operator；而Kafka Consumer从kafka producer里读取出data Generator生成的数据，通过T

guicaizhou 2020-09-15

kafka技术题

将向 Kafka topic 发布消息的程序成为 producers.将预订 topics 并消费消息的程序成为 consumer.Kafka 以集群的方式运行，可以由一个或多个服务组成，每个服务叫做一个 broker.producers 通过网络将消息发

hannuotayouxi 2020-08-20

kafka常见面试题

我们举个例子说明下运维中面对的复杂性，我们都知道 kafka 有个 ISR集合，我先说明下这个概念：

yangyutong00 2020-08-09

Windows 安装kafka

直接去 D:\Tool\zookeeper-3.4.14\bin，运行 zkServer.cmd. kafka-topics.bat --create --zookeeper localhost:2181 --replication-factor 1

amwayy 2020-08-03

【kafka】消费组消费主题

当消费组中的消费者数量大于分区数量时，会存在浪费。因为有消费者分配不到partition进行消费。在消费者不饱和的情况下，一个消费者是可以去消费多个分区的数据的。生产者生产投递9条消息，可以9条消息被投递到3不同分区，然后三个分区对应三个不同的消费者进行

yangyutong00 2020-08-01

logstash_output_kafka:Mysql同步Kafka深入详解

实际业务场景中，会遇到基础数据存在Mysql中，实时写入数据量比较大的情景。迁移至kafka是一种比较好的业务选型方案。如果需要同步历史全量数据+实时更新数据，建议使用logstash。实际上，核心logstash的同步原理的掌握，有助于大家理解类似的各种

weikaixxxxxx 2020-08-01

【kafka】生产者投递消息特征（异步发送）

kafka的生产者producer由持有未提交给kafka服务的记录的缓冲区构成一个缓冲区池，于此同时会有一个后台I/O线程来负责将这些记录record转化为请求request，然后将其提交给集群。如果发送完数据之后不对producer进行资源释放clos

PoppyEvan 2020-08-01

【kafka】消费者对应的分配partition分区策略

解决问题：1.实现了负载均衡。现有两个主题topic1、topic2，各自都有三个partition。TopicAndPartition对象，多个主题整体排序[topic1_partition0,topic1_partition1,topic1_parti

guicaizhou 2020-08-01

Kafka基础（八）：高效读写数据

Kafka 的 producer 生产数据，要写入到 log 文件中，写的过程是一直追加到文件末端，为顺序写。官网有数据表明，同样的磁盘，顺序写能到 600M/s，而随机写只有 100K/s。与磁盘的机械机构有关，顺序写之所以快，是因为其省去了大量磁头寻址

PoppyEvan 2020-07-29

为什么Twitter决定采用kafka作为其发布订阅系统？

Twitter系统的实时性质为Twitter工程团队带来了独特而具有挑战性的问题。我们需要快速发布突发新闻，向用户提供相关广告，并解决许多其他实时用例。Twitter的Pub / Sub系统为Twitter团队提供了处理此工作负载的基础架构。

什么是卡夫卡？

Apache Kafka是一个开源的分布式流媒体平台，可以以高吞吐量和低延迟传输数据。Kafka最初是在LinkedIn构思并于2011年开源的，并且从那时起被社区广泛采用，包括在其他公司，使其成为业界首选的事实上的实时消息系统。

Kafka的核心是基于日志构建的Pub / Sub系统，具有许多理想的属性，例如水平可伸缩性和容错性。从那以后，Kafka已经从消息系统发展成为一个成熟的流媒体平台（参见Kafka Streams）。

为什么迁移？

将所有Twitter的Pub / Sub用例迁移到一个全新的系统将是一个昂贵的过程。所以，自然而言，搬到卡夫卡的决定不是自发的，而是经过精心策划和数据驱动。迁移到卡夫卡的动机可归纳为两个主要原因：成本和社区。

成本

在整个公司宣布搬到Kafka的决定之前，我们的团队花了几个月的时间评估Kafka比较我们运行在EventBus上的类似工作负载 - 持久写入，拖尾读取，追赶读取和高扇出读取，以及一些灰色故障情况（例如，减慢群集中的特定代理）。

在性能方面，我们看到Kafka的延迟显着降低，无论吞吐量如何，从消息创建时到消费者阅读消息时的时间戳差异来衡量。

这可归因于几个因素，可能包括但不限于：

从成本的角度来看，EventBus需要服务层（针对高网络吞吐量进行了优化）和存储层（针对磁盘进行了优化）的硬件，而Kafka使用单个主机来提供这两者。因此，EventBus需要更多的机器才能来提供与Kafka相同的工作负载。

对于单个消费者用例，我们节省了68％的资源，对于拥有多个消费者的扇出案例，我们节省了75％的资源。

社区

此外，当我们在客户端或服务器上遇到问题时，我们可以通过快速搜索网络轻松找到解决方案，因为很可能其他人遇到了同样的问题。同样，对于不太受欢迎的项目来说，采用良好的项目的文档通常比文档更详尽。

挑战

尽管转移到卡夫卡的声音，但这并不是一帆风顺的。我们在这个过程中遇到了许多技术挑战和适应性挑战。

期待

相关推荐