大数据系列——IT大神kafka学习笔记（建议收藏）

cococai的

2019-06-14

关注关注

1. 大数据领域数据类型

1.1 有界数据

一般批处理(一个文件或者一批文件),不管文件多大，都是可以度量

mapreduce hive sparkcore sparksql

1.2 无界数据

源源不断的流水一样 (流数据)

Storm SparkStreaming

2. 消息队列(Message Queue)

消息 Message
网络中的两台计算机或者两个通讯设备之间传递的数据,例如说：文本、音乐、视频等内容
队列 Queue
一种特殊的线性表（数据元素首尾相接），特殊之处在于只允许在首部移除元素和在尾部追加元素。入队、出队。
消息队列 MQ
消息+队列
保存消息的队列
消息的传输过程中的容器
主要提供生产、消费接口供外部调用做数据的存储和获取

3. 消息队列的分类

3.1 点对点(P2P)

一个生产者生产的消息只能被一个消费者消费

3.2 发布订阅(Pub/Sub)

消息队列(Queue)、主题(Topic)、发布者(Publisher)、订阅者(Subscriber)

消息的发布者
消息的订阅者
每个消息可以有多个消费者，彼此互不影响。比如我发布一个微博：关注我的人都能够看到。

大数据系列——IT大神kafka学习笔记（建议收藏）

4. Kafka的简介

在大数据领域呢，为了满足日益增长的数据量，也有一款可以满足百万级别消息的生成和消费，分布式、持久稳定的产品——Kafka
Kafka是分布式的发布—订阅消息系统(基于PS的一个消息队列)
它最初由LinkedIn(领英)公司发布,使用Scala语言编写
Kafka是一个高吞吐量的、持久性的、分布式发布订阅消息系统
它主要用于处理活跃的数据(登录、浏览、点击、分享、喜欢等用户行为产生的数据

5. Kafka的特点

高吞吐量
可以满足每秒百万级 别消息的生产和消费(生产消费 )
持久性
有一套完善的消息存储机制，确保数据的高效安全的持久化 (数据的存储)
分布式
基于分布式的扩展和容错机制；Kafka的数据都会复制到几台服务器上。当某一台故障失效时，生产者和消费者转而使用其它的机器——整体健壮性

6. Kafka的组件

一个消息队列需要哪些部分?
生产
消费
消息类别
存储等等
Topic(主题)
Kafka处理的消息的不同分类
Broker (消息代理)
Kafka集群中的一个kafka服务节点称为一个broker，主要存储消息数据,存在硬盘中。每个topic都是有分区的
Partition (物理上的分区)
一个topic在broker中被分为1个或者多个partition，分区在创建topic的时候指定
Message (消息)
消息，是通信的基本单位，每个消息都属于一个partition

7. Kafka的服务

Producer : 消息和数据的生产者，向Kafka的一个topic发布消息
Consumer :消息和数据的消费者，定于topic并处理其发布的消息
Zookeeper :协调kafka的正常运行

大数据系列——IT大神kafka学习笔记（建议收藏）

8. Kafka的安装

8.1 单机版的安装

准备kafka
kafka_2.10-0.10.0.1.tgz
解压kafka
tar -zxvf kafka_2.10-0.10.0.1.tgz -C /opt/
重命名
mv kafka_2.10-0.10.0.1.tgz kafka
配置环境变量

export KAFKA_HOME=/opt/kafka
export PATH=$PATH:$KAFKA_HOME/bin

编辑server.properties

broker.id=1
log.dirs=/opt/kafka/logs
zookeeper.connect=uplooking03:2181,uplooking04:2181,uplooking05:2181
listeners=PLAINTEXT://:9092

启动kafka-server服务

kafka-server-start.sh [-daemon] server.properties

停止kafka服务

kafka-server-stop.sh

8.2 集群的安装

只需要在每个机器上修改对应的 ==broker.id=1== 即可

9. Kafka中Topic的操作

创建topic

kafka-topics.sh --create --topic t1 --partitions 3 --replication-factor 1 --zookeeper uplooking03:2181,uplooking04:2181

==注意: 创建topic过程的问题，replication-factor个数不能超过brokerserver的个数==
查看topic

kafka-topics.sh --list --zookeeper uplooking03

查看具体topic的详情

kafka-topics.sh --describe --topic t1 --zookeeper uplooking04:2181
PartitionCount：topic对应的partition的个数
ReplicationFactor：topic对应的副本因子，说白就是副本个数
Partition：partition编号，从0开始递增
Leader：当前partition起作用的breaker.id
Replicas: 当前副本数据存在的breaker.id，是一个列表，排在最前面的其作用
Isr：当前kakfa集群中可用的breaker.id列表

修改topic(不能修改replication-factor，以及只能对partition个数进行增加，不能减少 )

kafka-topics.sh --alter --topic t1 --partitions 4 --zookeeper uplooking03

删除Topic

kafka-topics.sh --delete --topic t1 --zookeeper uplooking03

ps:这种删除只是标记删除,要想彻底删除必须设置一个属性,在server.properties中配置delete.topic.enable=true，否则只是标记删除
配置完成之后，需要重启kafka服务

10. Kafka中的生产者和消费者接口

自己写代码实现kafka提供的消息生产和消费的接口
kafka自身也实现了自身的生产和消费的接口,给出了两个工具(kafka-console-producer.sh , kafka-console-consumer.sh)

11. Kafka自带的生产和消费消息的工具

11.1 kafka-console-producer.sh(生产工具)

kafka-console-producer.sh --topic t1 --broker-list uplooking03:9092,uploo
king04:9092,uplooking05:9092

11.2 kafka-console-consumer.sh(消费工具)

kafka-console-consumer.sh --zookeeper uplooking03 --topic t1
--from-beginning:从头开始消费
--blacklist:黑名单过滤(kafka-console-consumer.sh --zookeeper uplooking03 --blacklist t1,t3)
--whitelist:白名单过滤(kafka-console-consumer.sh --zookeeper uplooking03 --whitelist t2) 
ps:--topic|--blacklist|--whitelist 只能出现其中一个

12. ==Flume与Kafka的整合==

配置flume的agent配置文件
touch flume-kafka.properties

# 对各个组件的描述说明
# 其中a1为agent的名字
# r1是a1的source的代号名字
# c1是a1的channel的代号名字
# k1是a1的sink的代号名字
############################################
a1.sources = r1
a1.sinks = k1
a1.channels = c1
# 用于描述source的，类型是netcat网络
a1.sources.r1.type = netcat
# source监听的网络ip地址和端口号
a1.sources.r1.bind = uplooking01
a1.sources.r1.port = 44444
# 用于描述sink，类型是kafka
a1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink
a1.sinks.k1.topic = hadoop
a1.sinks.k1.brokerList = uplooking03:9092,uplooking04:9092,uplooking05:9092
a1.sinks.k1.requiredAcks = 1
a1.sinks.k1.batchSize = 2
# 用于描述channel，在内存中做数据的临时的存储
a1.channels.c1.type = memory
# 该内存中最大的存储容量，1000个events事件
a1.channels.c1.capacity = 1000
# 能够同时对100个events事件监管事务
a1.channels.c1.transactionCapacity = 100
# 将a1中的各个组件建立关联关系，将source和sink都指向了同一个channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

启动flume开始采集数据

[root@uplooking01:/opt/flume/conf]
 flume-ng agent --name a1 --conf-file flume-kafka.properties

开启Kafka消息消费工具

[root@uplooking03:/opt/flume/conf]
 kafka-console-consumer.sh --zookeeper uplooking03 --topic hadoop

给flume监听的Source发送数据

[root@uplooking03:/]
 nc uplooking01 44444

现在就可以到kafka的消费工具(kafka-console-consumer.sh)中区查看nc发送的数据

13. Kafka的API操作(生产者和消费者)

&lt;dependency&gt;
 &lt;groupId&gt;org.apache.kafka&lt;/groupId&gt;
 &lt;artifactId&gt;kafka_2.10&lt;/artifactId&gt;
 &lt;version&gt;0.10.0.1&lt;/version&gt;
&lt;/dependency&gt;

13.1 Kafka的生产者

创建生产者的配置文件 producer.properties

bootstrap.servers=uplooking03:9092,uplooking04:9092,uplooking05:9092
key.serializer=org.apache.kafka.common.serialization.StringSerializer
value.serializer=org.apache.kafka.common.serialization.StringSerializer

创建生产者并且发送数据到topic中

public class MyKafkaProducer {
 public static void main(String[] args) throws IOException {
 Properties prop = new Properties();
 prop.load(MyKafkaProducer.class.getClassLoader().getResourceAsStream("producer.properties"));
 KafkaProducer&lt;String, String&gt; kafkaProducer = new KafkaProducer&lt;String, String&gt;(prop);
 kafkaProducer.send(new ProducerRecord&lt;String, String&gt;("hadoop", "name", "admin123"));
 kafkaProducer.close();
 }
}

13.2 Kafka的消费者

创建消费者的配置文件consumer.properties

zookeeper.connect=uplooking03:2181,uplooking04:2181,uplooking05:2181
group.id=test-consumer-group
bootstrap.servers=uplooking03:9092,uplooking04:9092,uplooking05:9092
key.deserializer=org.apache.kafka.common.serialization.StringDeserializer
value.deserializer=org.apache.kafka.common.serialization.StringDeserializer

创建消息消费者消费topic中的数据

public static void main(String[] args) throws Exception {
 Properties prop = new Properties();
 prop.load(MyKafkaConsumer.class.getClassLoader().getResourceAsStream("consumer.properties"));
 KafkaConsumer&lt;String, String&gt; kafkaConsumer = new KafkaConsumer&lt;String, String&gt;(prop);
 Collection topics = new ArrayList();
 topics.add("hadoop");
 kafkaConsumer.subscribe(topics);
 while (true) {
 ConsumerRecords&lt;String, String&gt; records = kafkaConsumer.poll(1000);
 for (ConsumerRecord&lt;String, String&gt; record : records) {
 System.out.println(record.value());
 }
 }
}

自定义分区(MyCustomPartition)

package com.uplooking.bigdata.kafka.partition;
public class MyCustomPartition implements Partitioner {
public int partition(String topic, Object key, byte[] keyBytes, Object value, byte[] valueBytes, Cluster cluster) {
//获取分区数, 分区编号一般都是从0开始
int partitionSize = cluster.partitionCountForTopic(topic);
int keyHash = Math.abs(key.hashCode());
int valueHash = Math.abs(value.hashCode());
return keyHash % partitionSize;
}
public void close() {
}
public void configure(Map&lt;String, ?&gt; configs) {
}
}

配置自定义分区(producer.properties)

partitioner.class=com.uplooking.bigdata.kafka.partition.MyCustomPartition

end：如果你觉得本文对你有帮助的话，记得点赞转发，你的支持就是我更新动力。

kafka 大数据

cococai的

0 关注 0 粉丝 0 动态

关注关注

.NET Core下使用Kafka的方法步骤

# 修改每个topic的默认分区参数num.partitions，默认是1，具体合适的取值需要根据服务器配置进程确定，UCloud.ukafka = 3. Segment：partition物理上由多个segment组成，下面2.2和2.3有详细说明。pa

Kafka 2020-09-18

架构师的选择，Pulsar还是Kafka？

最近，我一直在研究Pulsar及其与Kafka的比较。快速搜索将显示两个最著名的开源消息传递系统之间存在当前的"战争"。作为Kafka的用户，我确实对Kafka的某些问题感到困惑，并且我对Pulsar感到非常失望。在本文中，我将重点介绍

yanghuashuiyue 9评论 2020-11-14

Kafka之消费与心跳

导读kafka是一个分布式，分区的，多副本的，多订阅者的消息发布订阅系统，可以用于搜索日志，监控日志，访问日志等。今天小编来领大家一起来学习一下Kafka消费与心跳机制。Kafka提供了非常简单的消费API，使用者只需初始化Kafka的Broker Se

liuxingen 12评论 2020-11-13

刨根问底,Kafka消息中间件到底会不会丢消息

本文转载自微信公众号「爱笑的架构师」，作者雷架。大型互联网公司一般都会要求消息传递最大限度的不丢失，比如用户服务给代金券服务发送一个消息，如果消息丢失会造成用户未收到应得的代金券，最终用户会投诉。为避免上面类似情况的发生，除了做好补偿措施，更应该在系设计的

wangying 2020-11-13

记一次生产 Kafka 挂掉的那几分钟

本文转载自微信公众号「Java极客技术」，作者鸭血粉丝。Hello，大家好，我是阿粉，作为一个后端工程师不经历几次生产事故怎么能成长!阿粉工作几年来，大大小小，重要不重要的事故也经历了不少，有损失几十万的，有对业务毫无影响但是不应该发生的，每一次事故都是一

王谦 15评论 2020-11-03

面试 | 再有人问Kafka，别说你不会！

Kafka 是一个优秀的分布式消息中间件，许多系统中都会使用到 Kafka 来做消息通信。对分布式消息系统的了解和使用几乎成为一个后台开发人员必备的技能。今天就从常见的 Kafka 面试题入手和大家聊聊 Kafka 的那些事儿。生产者负责创建消息，然后将其

huangwei00 10评论 2020-10-14

RabbitMQ七战Kafka，差异立现！

作为一个有丰富经验的微服务系统架构师，经常有人问我，“应该选择RabbitMQ还是Kafka？”。基于某些原因，许多开发者会把这两种技术当做等价的来看待。的确，在一些案例场景下选择RabbitMQ还是Kafka没什么差别，但是这两种技术在底层实现方面是有

shenzhenzsw 2020-10-09

Kafka突然宕机了？稳住，莫慌！

问题要从一次 Kafka 的宕机开始说起。笔者所在的是一家金融科技公司，但公司内部并没有采用在金融支付领域更为流行的 RabbitMQ，而是采用了设计之初就为日志处理而生的 Kafka，所以我一直很好奇 Kafka 的高可用实现和保障。从 Kafka 部

guicaizhou 2020-09-30

监控kafka队列长度

#!df=pd.DataFrame(columnList,columns=["topics","LAG"]). dfResult=df.groupby("topics",as_index=Fals

jiaomrswang 2020-09-23

Kafka都没整明白，还敢去面试？

放眼当下数据为王的时代，深入了解 Apache Kafka 及其常见的部署应用，快速实现数据架构已是大势所趋，刻不容缓。以下分别 Kafka 架构，四大核心 API，典型应用场景，Kafka 代理与消息主题，集群的创建，流 APIs及其处理模式等不同方面展

jyj0 2020-09-21

SAP Data Intelligence里的Kafka Producer和Consumer

新建一个graph，使用典型的生产者-消费者模型：将Data Generator生成的数据交给kafka Producer operator；而Kafka Consumer从kafka producer里读取出data Generator生成的数据，通过T

guicaizhou 2020-09-15

kafka技术题

将向 Kafka topic 发布消息的程序成为 producers.将预订 topics 并消费消息的程序成为 consumer.Kafka 以集群的方式运行，可以由一个或多个服务组成，每个服务叫做一个 broker.producers 通过网络将消息发

hannuotayouxi 2020-08-20

kafka常见面试题

我们举个例子说明下运维中面对的复杂性，我们都知道 kafka 有个 ISR集合，我先说明下这个概念：

yangyutong00 2020-08-09

Windows 安装kafka

直接去 D:\Tool\zookeeper-3.4.14\bin，运行 zkServer.cmd. kafka-topics.bat --create --zookeeper localhost:2181 --replication-factor 1

amwayy 2020-08-03

【kafka】消费组消费主题

当消费组中的消费者数量大于分区数量时，会存在浪费。因为有消费者分配不到partition进行消费。在消费者不饱和的情况下，一个消费者是可以去消费多个分区的数据的。生产者生产投递9条消息，可以9条消息被投递到3不同分区，然后三个分区对应三个不同的消费者进行

yangyutong00 2020-08-01

logstash_output_kafka:Mysql同步Kafka深入详解

实际业务场景中，会遇到基础数据存在Mysql中，实时写入数据量比较大的情景。迁移至kafka是一种比较好的业务选型方案。如果需要同步历史全量数据+实时更新数据，建议使用logstash。实际上，核心logstash的同步原理的掌握，有助于大家理解类似的各种

weikaixxxxxx 2020-08-01

【kafka】生产者投递消息特征（异步发送）

kafka的生产者producer由持有未提交给kafka服务的记录的缓冲区构成一个缓冲区池，于此同时会有一个后台I/O线程来负责将这些记录record转化为请求request，然后将其提交给集群。如果发送完数据之后不对producer进行资源释放clos

PoppyEvan 2020-08-01

【kafka】消费者对应的分配partition分区策略

解决问题：1.实现了负载均衡。现有两个主题topic1、topic2，各自都有三个partition。TopicAndPartition对象，多个主题整体排序[topic1_partition0,topic1_partition1,topic1_parti

guicaizhou 2020-08-01

Kafka基础（八）：高效读写数据

Kafka 的 producer 生产数据，要写入到 log 文件中，写的过程是一直追加到文件末端，为顺序写。官网有数据表明，同样的磁盘，顺序写能到 600M/s，而随机写只有 100K/s。与磁盘的机械机构有关，顺序写之所以快，是因为其省去了大量磁头寻址

PoppyEvan 2020-07-29

Apache Kafka 架构和相关概念

缓冲上下游瞬时突发流量，使其更平滑.特别是对于那种发送能力很强的上游系统，如果没有消息引擎的保护，“脆弱”的下游系统可能会直接被压垮导致全链路服务“雪崩”。使发送方与接收方松耦合,仅以协议的方式进行通讯,简化了开发.也叫消息队列,每个消息只能被一个下游的消

sweetgirl0 2020-07-27

安科网

大数据系列——IT大神kafka学习笔记（建议收藏）

cococai的

cococai的

相关推荐

.NET Core下使用Kafka的方法步骤

架构师的选择，Pulsar还是Kafka？

Kafka之消费与心跳

刨根问底,Kafka消息中间件到底会不会丢消息

记一次生产 Kafka 挂掉的那几分钟

面试 | 再有人问Kafka，别说你不会！

RabbitMQ七战Kafka，差异立现！

Kafka突然宕机了？稳住，莫慌！

监控kafka队列长度

Kafka都没整明白，还敢去面试？

SAP Data Intelligence里的Kafka Producer和Consumer

kafka技术题

kafka常见面试题

Windows 安装kafka

【kafka】消费组消费主题

logstash_output_kafka:Mysql同步Kafka深入详解

【kafka】生产者投递消息特征（异步发送）

【kafka】消费者对应的分配partition分区策略

Kafka基础（八）：高效读写数据

Apache Kafka 架构和相关概念

cococai的