Apache Kafka 教程笔记

feiqinbushizheng

2014-01-03

本文基于Kafka 0.8

1. 引言

互联网够公司的日志无处不在，web日志，js日志，搜索日志，监控日志等等。对于这些日志的离线分析（Hadoop），wget&rsync虽然人力维护成本较高，但可以满足功能行需求。但对于这些日志的实时分析需求（例如实时推荐，监控系统），则往往必须要引入一些“高大上”的系统。

传统的企业消息系统（例如WebSphere）并不是非常适合大规模的日志处理系统，理由如下：
1) 过于关注可靠性，这些可靠性增加了系统实现&API的复杂度，而在日志处理过程中，丢失几条日志常常“无伤大雅”
2) 包括API，scale及消息缓冲的设计理念都不适合Hign Throughput的日志处理系统

针对这些问题，近些年各个公司都做了一些自己的日志收集系统，例如：Facebook的Scribe、Yahoo的data highway，Cloudera的Flume，Apache的Chukwa，百度的BigPipe，阿里的RocketMQ。

Kafka是LinkedIn开发并开源出来的一个高吞吐的分布式消息系统。其具有以下特点：
1) 支持高Throughput的应用
2) scale out：无需停机即可扩展机器
3) 持久化：通过将数据持久化到硬盘以及replication防止数据丢失
4) 支持online和offline的场景。

2. 介绍

kafka使用scala开发，支持多语言客户端（c++、java、Python、go等）其架构如下[2]：
Apache Kafka 教程笔记
Producer：消息发布者
Broker：消息中间件处理结点，一个kafka节点就是一个broker
Consumer：消息订阅者

kafka的消息分几个层次：
1) Topic：一类消息，例如page view日志，click日志等都可以以topic的形式存在，kafka集群能够同时负责多个topic的分发
2) Partition： Topic物理上的分组，一个topic可以分为多个partition，每个partition是一个有序的队列。partition中的每条消息都会被分配一个有序的id（offset）。
3) Message：消息，最小订阅单元

具体流程：
1. Producer根据指定的partition方法（round-robin、hash等），将消息发布到指定topic的partition里面
2. kafka集群接收到Producer发过来的消息后，将其持久化到硬盘，并保留消息指定时长（可配置），而不关注消息是否被消费。
3. Consumer从kafka集群pull数据，并控制获取消息的offset

3. 设计

ThroughPut
High Throughput是kafka需要实现的核心目标之一，为此kafka做了以下一些设计：
1）数据磁盘持久化：消息不在内存中cache，直接写入到磁盘，充分利用磁盘的顺序读写性能
2）zero-copy：减少IO操作步骤
3）数据批量发送
4）数据压缩
5）Topic划分为多个partition，提高parallelism

load balance&HA
1) producer根据用户指定的算法，将消息发送到指定的partition
2) 存在多个partiiton，每个partition有自己的replica，每个replica分布在不同的Broker节点上
3) 多个partition需要选取出lead partition，lead partition负责读写，并由zookeeper负责fail over
4) 通过zookeeper管理broker与consumer的动态加入与离开

pull-based system
由于kafka broker会持久化数据，broker没有内存压力，因此，consumer非常适合采取pull的方式消费数据，具有以下几点好处：
1）简化kafka设计
2）consumer根据消费能力自主控制消息拉取速度
3）consumer根据自身情况自主选择消费模式，例如批量，重复消费，从尾端开始消费等

Scale Out
当需要增加broker结点时，新增的broker会向zookeeper注册，而producer及consumer会根据注册在zookeeper上的watcher感知这些变化，并及时作出调整。

Kafka 的详细介绍：请点这里
Kafka 的下载地址：请点这里

相关阅读：

kafka partition apache 消息队列

安科网

Apache Kafka 教程笔记

feiqinbushizheng

本文基于Kafka 0.8

1. 引言

2. 介绍

3. 设计

feiqinbushizheng

相关推荐

【kafka】消费者对应的分配partition分区策略

Spark Streaming读取Kafka数据两种方式

.NET Core下使用Kafka的方法步骤

Apache Kafka 架构和相关概念

面试 | 再有人问Kafka，别说你不会！

RabbitMQ七战Kafka，差异立现！

Kafka突然宕机了？稳住，莫慌！

九张图带你了解Kafka

【消息队列-Kafka】01-Kafka入门使用

3.kafka学习

一文详解消息队列——Kafka如何实现高性能IO？

聊一聊高并发高可用那些事 - Kafka篇

面试官为什么喜欢拿 Kafka 考验求职者

一、kafka 介绍 && kafka-client

架构师的选择，Pulsar还是Kafka？

Kafka之消费与心跳

刨根问底,Kafka消息中间件到底会不会丢消息

记一次生产 Kafka 挂掉的那几分钟

监控kafka队列长度

Kafka都没整明白，还敢去面试？

feiqinbushizheng

Apache Kafka 教程笔记

本文基于Kafka 0.81. 引言

2. 介绍

3. 设计

相关推荐

本文基于Kafka 0.8

1. 引言