入门大数据---Kafka是什么？

chenjia00

2020-03-07

目录

1.Kafka简介

Kafka是一种计算框架，结合了之前的MapReduce批处理和流式计算为一体，可以处理历史数据和实时数据。

流平台具有三个关键功能：

发布和订阅记录流，类似于消息队列或企业消息传递系统。
以容错的持久方式存储记录流。
处理记录流。

Kafka通常用于两大类应用程序:

构建应用程序和Kafka之间的管道流
构建响应流

另外几个概念:

Kafka可以部署到多台机器上，甚至不同区域的机房里面
Kafka的记录流存在Topic（主题）里面
每条记录由key，value和timestamp组成

Kafka提供了四个核心API：

入门大数据---Kafka是什么？

Topics and Logs(主题和日志)

一个Topic有0个，1个或多个订阅者。一个Topic有1个或多个分区。另外还有个任务概念，每个任务可以处理多个分区。如下图所示：

入门大数据---Kafka是什么？

每个Topic维护着一个有序的Log，订阅者根据自己记录的偏移量来灵活读取Log。

Distribution

每个Log有一个主节点和多个从节点，这些节点分布到不同机器上，从节点同步主节点内容，当主节点挂了，会从从节点里面选取一个主节点继续运行。每个主节点机器上同时分布着其它机器的从节点，同时主节点也分布着其它Log的主节点,画个图脑补下：

入门大数据---Kafka是什么？

Geo-Replication（地理复制）

要保证Kafka可靠，可以将服务部署到多个省，多个国家的云中心，在出问题的时候方便恢复。

Producers(生产者)

Producer负责将数据发送到Topic里面。

Consumers(消费者)

这里有个Consumer Group概念，每个Consumer Group里面有多个Consumer，Consumer Group负责订阅分区消息，并分配给Consumer。

入门大数据---Kafka是什么？

Multi-tenancy(多租户)

可以制定一个多租户解决方案，通过配置哪些主题可以生成或消耗数据来启用多租户。

Guarantees(担保)

Kafka通过顺序的记录日志和允许n-1台服务器挂掉来保障服务的稳定。

Kafka as a Messaging System（Kafka作为消息传递系统）

Kafka同时兼容了队列传递和发布订阅传递。并且通过分区机制可以有序并行的给消费者分发消息。

Kafka as a Storage System（Kafka作为存储系统）

任何消费订阅消息都能存储到Kafka里面，并分发备份到不同机器上。所以Kafka可以看作是一种高性能，低延迟，日志存储的分布式文件系统。

Kafka for Stream Processing(用于流处理的Kafka)

Kafka不仅可以进行写入，读取和存储，还可以进行实时的流处理。简单的通过发布订阅APIs就能进行处理，复杂的有专门的 Streams API.

入门大数据---Kafka是什么？

Putting the Pieces Together(把多种方案汇聚一身)

Kafka汇聚了队列，发布订阅，批处理，流处理和分布式存储技术。可以说很厉害。

2.Kafka架构

入门大数据---Kafka是什么？

系列传送门

kafka 大数据 ul target api

chenjia00

0 关注 0 粉丝 0 动态

相关推荐

Kafka都没整明白，还敢去面试？

放眼当下数据为王的时代，深入了解 Apache Kafka 及其常见的部署应用，快速实现数据架构已是大势所趋，刻不容缓。以下分别 Kafka 架构，四大核心 API，典型应用场景，Kafka 代理与消息主题，集群的创建，流 APIs及其处理模式等不同方面展

jyj0 2020-09-21

.NET Core下使用Kafka的方法步骤

# 修改每个topic的默认分区参数num.partitions，默认是1，具体合适的取值需要根据服务器配置进程确定，UCloud.ukafka = 3. Segment：partition物理上由多个segment组成，下面2.2和2.3有详细说明。pa

Kafka 2020-09-18

架构师的选择，Pulsar还是Kafka？

最近，我一直在研究Pulsar及其与Kafka的比较。快速搜索将显示两个最著名的开源消息传递系统之间存在当前的"战争"。作为Kafka的用户，我确实对Kafka的某些问题感到困惑，并且我对Pulsar感到非常失望。在本文中，我将重点介绍

yanghuashuiyue 9评论 2020-11-14

Kafka之消费与心跳

导读kafka是一个分布式，分区的，多副本的，多订阅者的消息发布订阅系统，可以用于搜索日志，监控日志，访问日志等。今天小编来领大家一起来学习一下Kafka消费与心跳机制。Kafka提供了非常简单的消费API，使用者只需初始化Kafka的Broker Se

liuxingen 12评论 2020-11-13

刨根问底,Kafka消息中间件到底会不会丢消息

本文转载自微信公众号「爱笑的架构师」，作者雷架。大型互联网公司一般都会要求消息传递最大限度的不丢失，比如用户服务给代金券服务发送一个消息，如果消息丢失会造成用户未收到应得的代金券，最终用户会投诉。为避免上面类似情况的发生，除了做好补偿措施，更应该在系设计的

wangying 2020-11-13

记一次生产 Kafka 挂掉的那几分钟

本文转载自微信公众号「Java极客技术」，作者鸭血粉丝。Hello，大家好，我是阿粉，作为一个后端工程师不经历几次生产事故怎么能成长!阿粉工作几年来，大大小小，重要不重要的事故也经历了不少，有损失几十万的，有对业务毫无影响但是不应该发生的，每一次事故都是一

王谦 15评论 2020-11-03

面试 | 再有人问Kafka，别说你不会！

Kafka 是一个优秀的分布式消息中间件，许多系统中都会使用到 Kafka 来做消息通信。对分布式消息系统的了解和使用几乎成为一个后台开发人员必备的技能。今天就从常见的 Kafka 面试题入手和大家聊聊 Kafka 的那些事儿。生产者负责创建消息，然后将其

huangwei00 10评论 2020-10-14

RabbitMQ七战Kafka，差异立现！

作为一个有丰富经验的微服务系统架构师，经常有人问我，“应该选择RabbitMQ还是Kafka？”。基于某些原因，许多开发者会把这两种技术当做等价的来看待。的确，在一些案例场景下选择RabbitMQ还是Kafka没什么差别，但是这两种技术在底层实现方面是有

shenzhenzsw 2020-10-09

Kafka突然宕机了？稳住，莫慌！

问题要从一次 Kafka 的宕机开始说起。笔者所在的是一家金融科技公司，但公司内部并没有采用在金融支付领域更为流行的 RabbitMQ，而是采用了设计之初就为日志处理而生的 Kafka，所以我一直很好奇 Kafka 的高可用实现和保障。从 Kafka 部

guicaizhou 2020-09-30

监控kafka队列长度

#!df=pd.DataFrame(columnList,columns=["topics","LAG"]). dfResult=df.groupby("topics",as_index=Fals

jiaomrswang 2020-09-23

SAP Data Intelligence里的Kafka Producer和Consumer

新建一个graph，使用典型的生产者-消费者模型：将Data Generator生成的数据交给kafka Producer operator；而Kafka Consumer从kafka producer里读取出data Generator生成的数据，通过T

guicaizhou 2020-09-15

kafka技术题

将向 Kafka topic 发布消息的程序成为 producers.将预订 topics 并消费消息的程序成为 consumer.Kafka 以集群的方式运行，可以由一个或多个服务组成，每个服务叫做一个 broker.producers 通过网络将消息发

hannuotayouxi 2020-08-20

kafka常见面试题

我们举个例子说明下运维中面对的复杂性，我们都知道 kafka 有个 ISR集合，我先说明下这个概念：

yangyutong00 2020-08-09

Windows 安装kafka

直接去 D:\Tool\zookeeper-3.4.14\bin，运行 zkServer.cmd. kafka-topics.bat --create --zookeeper localhost:2181 --replication-factor 1

amwayy 2020-08-03

【kafka】消费组消费主题

当消费组中的消费者数量大于分区数量时，会存在浪费。因为有消费者分配不到partition进行消费。在消费者不饱和的情况下，一个消费者是可以去消费多个分区的数据的。生产者生产投递9条消息，可以9条消息被投递到3不同分区，然后三个分区对应三个不同的消费者进行

yangyutong00 2020-08-01

logstash_output_kafka:Mysql同步Kafka深入详解

实际业务场景中，会遇到基础数据存在Mysql中，实时写入数据量比较大的情景。迁移至kafka是一种比较好的业务选型方案。如果需要同步历史全量数据+实时更新数据，建议使用logstash。实际上，核心logstash的同步原理的掌握，有助于大家理解类似的各种

weikaixxxxxx 2020-08-01

【kafka】生产者投递消息特征（异步发送）

kafka的生产者producer由持有未提交给kafka服务的记录的缓冲区构成一个缓冲区池，于此同时会有一个后台I/O线程来负责将这些记录record转化为请求request，然后将其提交给集群。如果发送完数据之后不对producer进行资源释放clos

PoppyEvan 2020-08-01

【kafka】消费者对应的分配partition分区策略

解决问题：1.实现了负载均衡。现有两个主题topic1、topic2，各自都有三个partition。TopicAndPartition对象，多个主题整体排序[topic1_partition0,topic1_partition1,topic1_parti

guicaizhou 2020-08-01

Kafka基础（八）：高效读写数据

Kafka 的 producer 生产数据，要写入到 log 文件中，写的过程是一直追加到文件末端，为顺序写。官网有数据表明，同样的磁盘，顺序写能到 600M/s，而随机写只有 100K/s。与磁盘的机械机构有关，顺序写之所以快，是因为其省去了大量磁头寻址

PoppyEvan 2020-07-29

Apache Kafka 架构和相关概念

缓冲上下游瞬时突发流量，使其更平滑.特别是对于那种发送能力很强的上游系统，如果没有消息引擎的保护，“脆弱”的下游系统可能会直接被压垮导致全链路服务“雪崩”。使发送方与接收方松耦合,仅以协议的方式进行通讯,简化了开发.也叫消息队列,每个消息只能被一个下游的消

sweetgirl0 2020-07-27

chenjia00

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号