Spark-Streaming 和 Kafka 做实时计算需要注意的点

XHuiLin

2019-01-06

关注关注

流式计算中最重要的消息的消费

当我们使用spark做准实时计算的时候，很大场景都是和kafka的通信，总结下spark使用kafka的注意事项，下面上代码

package com.aura.bigdata.spark.scala.streaming.p1

import kafka.common.TopicAndPartition

import kafka.message.MessageAndMetadata

import kafka.serializer.StringDecoder

import org.apache.curator.framework.CuratorFrameworkFactory

import org.apache.curator.retry.ExponentialBackoffRetry

import org.apache.log4j.{Level, Logger}

import org.apache.spark.SparkConf

import org.apache.spark.streaming.dstream.InputDStream

import org.apache.spark.streaming.kafka.{HasOffsetRanges, KafkaUtils, OffsetRange}

import org.apache.spark.streaming.{Seconds, StreamingContext}

import scala.collection.JavaConversions

/**

* 使用的zookeeper来管理sparkdriver读取的offset偏移量

* 将kafka对应的topic的offset保存到的路径

* 约定，offset的保存到路径

* /xxxxx/offsets/topic/group/partition/

* 0

* 1

* 2

* bigdata01:2181,bigdata02:2181,bigdata03:2181/kafka

object _07SparkKafkaDriverHAZooKeeperOps {

def main(args: Array[String]): Unit = {

Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)

Logger.getLogger("org.apache.spark").setLevel(Level.WARN)

Logger.getLogger("org.project-spark").setLevel(Level.WARN)

if(args == null || args.length < 4) {

println(

"""

|Parameter Errors! Usage: <batchInterval> <zkQuorum> <groupId> <topics>

|batchInterval : 批次间隔时间

|zkQuorum : zookeeper url地址

|groupId : 消费组的id

|topic : 读取的topic

""".stripMargin)

System.exit(-1)

}

val Array(batchInterval, zkQuorum, group, topic) = args

val kafkaParams = Map[String, String](

"bootstrap.servers" -> "bigdata01:9092,bigdata02:9092,bigdata03:9092",

"auto.offset.reset"-> "smallest"

)

val conf = new SparkConf().setMaster("local[2]").setAppName("_06SparkKafkaDirectOps2")

def createFunc():StreamingContext = {

val ssc = new StreamingContext(conf, Seconds(batchInterval.toLong))

//读取kafka的数据

val messages = createMessage(ssc, kafkaParams, topic, group)

//业务操作

messages.foreachRDD((rdd, bTime) => {

if(!rdd.isEmpty()) {

println("###########################->RDD count: " + rdd.count)

println("###########################->RDD count: " + bTime)

//所有的业务操作只能在这里完成这里的处理逻辑和rdd的操作一模一样

}

//处理完毕之后将偏移量保存回去

storeOffsets(rdd.asInstanceOf[HasOffsetRanges].offsetRanges, topic, group)

})

ssc

}

//开启的高可用的方式要从失败中恢复过来

val ssc = StreamingContext.getActiveOrCreate(createFunc _)

ssc.start()

ssc.awaitTermination()

}

def storeOffsets(offsetRanges: Array[OffsetRange], topic: String, group: String): Unit = {

val zkTopicPath = s"/offsets/${topic}/${group}"

for (range <- offsetRanges) {//每一个range中都存储了当前rdd中消费之后的偏移量

val path = s"${zkTopicPath}/${range.partition}"

ensureZKExists(path)

client.setData().forPath(path, (range.untilOffset + "").getBytes())

}

* 约定，offset的保存到路径 ----->zookeeper

* /xxxxx/offsets/topic/group/partition/

* 0

* 1

* 2

def createMessage(ssc:StreamingContext, kafkaParams:Map[String, String], topic:String, group:String):InputDStream[(String, String)] = {

//从zookeeper中读取对应的偏移量，返回值适应fromOffsets和flag(标志位)

val (fromOffsets, flag) = getFromOffsets(topic, group)

var message:InputDStream[(String, String)] = null

if(!flag) {

//有数据-->zookeeper中是否保存了SparkStreaming程序消费kafka的偏移量信息

//处理第一次以外，从这个接口读取kafka对应的数据

val messageHandler = (mmd: MessageAndMetadata[String, String]) => (mmd.key, mmd.message)

message = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder, (String, String)](ssc, kafkaParams, fromOffsets, messageHandler)

} else {

//第一次读取的时候

message = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topic.split(",").toSet)

}

message

}

//从zookeeper中读取kafka对应的offset --->

def getFromOffsets(topic:String, group:String): (Map[TopicAndPartition, Long], Boolean) = {

///xxxxx/offsets/topic/group/partition/

val zkTopicPath = s"/offsets/${topic}/${group}"

ensureZKExists(zkTopicPath)

//如果有直接读取对应的数据

val offsets = for{p <- JavaConversions.asScalaBuffer(

client.getChildren.forPath(zkTopicPath))} yield {

// p --->分区所对应的值

val offset = client.getData.forPath(s"${zkTopicPath}/${p}")

(TopicAndPartition(topic, p.toInt), new String(offset).toLong)

}

if(!offsets.isEmpty) {

(offsets.toMap, false)

} else {

(offsets.toMap, true)

}

def ensureZKExists(zkTopicPath:String): Unit = {

if(client.checkExists().forPath(zkTopicPath) == null) {//zk中没有没写过数据

client.create().creatingParentsIfNeeded().forPath(zkTopicPath)

}

val client = {//代码块编程 zk(servlet)--->Curator(SpringMVC/Struts2)

val client = CuratorFrameworkFactory.builder()

.namespace("mykafka")//命名空间就是目录意思

.connectString("bigdata01:2181,bigdata02:2181,bigdata03:2181/kafka")

.retryPolicy(new ExponentialBackoffRetry(1000, 3))

.build()

client.start()

client

}

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

总结

在spark的使用是特别注意使用kafka的时候要处理消息的偏移量。

---------------------

作者：梧桐听夜雨

原文：https://blog.csdn.net/qq_16457097/article/details/85341057

Spark-Streaming 和 Kafka 做实时计算需要注意的点

kafka topic apache 科技新闻

XHuiLin

0 关注 0 粉丝 0 动态

关注关注

.NET Core下使用Kafka的方法步骤

# 修改每个topic的默认分区参数num.partitions，默认是1，具体合适的取值需要根据服务器配置进程确定，UCloud.ukafka = 3. Segment：partition物理上由多个segment组成，下面2.2和2.3有详细说明。pa

Kafka 2020-09-18

Apache Kafka 架构和相关概念

缓冲上下游瞬时突发流量，使其更平滑.特别是对于那种发送能力很强的上游系统，如果没有消息引擎的保护，“脆弱”的下游系统可能会直接被压垮导致全链路服务“雪崩”。使发送方与接收方松耦合,仅以协议的方式进行通讯,简化了开发.也叫消息队列,每个消息只能被一个下游的消

sweetgirl0 2020-07-27

架构师的选择，Pulsar还是Kafka？

最近，我一直在研究Pulsar及其与Kafka的比较。快速搜索将显示两个最著名的开源消息传递系统之间存在当前的"战争"。作为Kafka的用户，我确实对Kafka的某些问题感到困惑，并且我对Pulsar感到非常失望。在本文中，我将重点介绍

yanghuashuiyue 2020-11-14

面试 | 再有人问Kafka，别说你不会！

Kafka 是一个优秀的分布式消息中间件，许多系统中都会使用到 Kafka 来做消息通信。对分布式消息系统的了解和使用几乎成为一个后台开发人员必备的技能。今天就从常见的 Kafka 面试题入手和大家聊聊 Kafka 的那些事儿。生产者负责创建消息，然后将其

huangwei00 2020-10-14

kafka技术题

将向 Kafka topic 发布消息的程序成为 producers.将预订 topics 并消费消息的程序成为 consumer.Kafka 以集群的方式运行，可以由一个或多个服务组成，每个服务叫做一个 broker.producers 通过网络将消息发

hannuotayouxi 2020-08-20

【kafka】消费者对应的分配partition分区策略

解决问题：1.实现了负载均衡。现有两个主题topic1、topic2，各自都有三个partition。TopicAndPartition对象，多个主题整体排序[topic1_partition0,topic1_partition1,topic1_parti

guicaizhou 2020-08-01

Kafka之消费与心跳

导读kafka是一个分布式，分区的，多副本的，多订阅者的消息发布订阅系统，可以用于搜索日志，监控日志，访问日志等。今天小编来领大家一起来学习一下Kafka消费与心跳机制。Kafka提供了非常简单的消费API，使用者只需初始化Kafka的Broker Se

liuxingen 2020-11-13

刨根问底,Kafka消息中间件到底会不会丢消息

本文转载自微信公众号「爱笑的架构师」，作者雷架。大型互联网公司一般都会要求消息传递最大限度的不丢失，比如用户服务给代金券服务发送一个消息，如果消息丢失会造成用户未收到应得的代金券，最终用户会投诉。为避免上面类似情况的发生，除了做好补偿措施，更应该在系设计的

wangying 2020-11-13

记一次生产 Kafka 挂掉的那几分钟

本文转载自微信公众号「Java极客技术」，作者鸭血粉丝。Hello，大家好，我是阿粉，作为一个后端工程师不经历几次生产事故怎么能成长!阿粉工作几年来，大大小小，重要不重要的事故也经历了不少，有损失几十万的，有对业务毫无影响但是不应该发生的，每一次事故都是一

王谦 2020-11-03

RabbitMQ七战Kafka，差异立现！

作为一个有丰富经验的微服务系统架构师，经常有人问我，“应该选择RabbitMQ还是Kafka？”。基于某些原因，许多开发者会把这两种技术当做等价的来看待。的确，在一些案例场景下选择RabbitMQ还是Kafka没什么差别，但是这两种技术在底层实现方面是有

shenzhenzsw 2020-10-09

Kafka突然宕机了？稳住，莫慌！

问题要从一次 Kafka 的宕机开始说起。笔者所在的是一家金融科技公司，但公司内部并没有采用在金融支付领域更为流行的 RabbitMQ，而是采用了设计之初就为日志处理而生的 Kafka，所以我一直很好奇 Kafka 的高可用实现和保障。从 Kafka 部

guicaizhou 2020-09-30

监控kafka队列长度

#!df=pd.DataFrame(columnList,columns=["topics","LAG"]). dfResult=df.groupby("topics",as_index=Fals

jiaomrswang 2020-09-23

Kafka都没整明白，还敢去面试？

放眼当下数据为王的时代，深入了解 Apache Kafka 及其常见的部署应用，快速实现数据架构已是大势所趋，刻不容缓。以下分别 Kafka 架构，四大核心 API，典型应用场景，Kafka 代理与消息主题，集群的创建，流 APIs及其处理模式等不同方面展

jyj0 2020-09-21

SAP Data Intelligence里的Kafka Producer和Consumer

新建一个graph，使用典型的生产者-消费者模型：将Data Generator生成的数据交给kafka Producer operator；而Kafka Consumer从kafka producer里读取出data Generator生成的数据，通过T

guicaizhou 2020-09-15

kafka常见面试题

我们举个例子说明下运维中面对的复杂性，我们都知道 kafka 有个 ISR集合，我先说明下这个概念：

yangyutong00 2020-08-09

Windows 安装kafka

直接去 D:\Tool\zookeeper-3.4.14\bin，运行 zkServer.cmd. kafka-topics.bat --create --zookeeper localhost:2181 --replication-factor 1

amwayy 2020-08-03

【kafka】消费组消费主题

当消费组中的消费者数量大于分区数量时，会存在浪费。因为有消费者分配不到partition进行消费。在消费者不饱和的情况下，一个消费者是可以去消费多个分区的数据的。生产者生产投递9条消息，可以9条消息被投递到3不同分区，然后三个分区对应三个不同的消费者进行

yangyutong00 2020-08-01

logstash_output_kafka:Mysql同步Kafka深入详解

实际业务场景中，会遇到基础数据存在Mysql中，实时写入数据量比较大的情景。迁移至kafka是一种比较好的业务选型方案。如果需要同步历史全量数据+实时更新数据，建议使用logstash。实际上，核心logstash的同步原理的掌握，有助于大家理解类似的各种

weikaixxxxxx 2020-08-01

【kafka】生产者投递消息特征（异步发送）

kafka的生产者producer由持有未提交给kafka服务的记录的缓冲区构成一个缓冲区池，于此同时会有一个后台I/O线程来负责将这些记录record转化为请求request，然后将其提交给集群。如果发送完数据之后不对producer进行资源释放clos

PoppyEvan 2020-08-01

Kafka基础（八）：高效读写数据

Kafka 的 producer 生产数据，要写入到 log 文件中，写的过程是一直追加到文件末端，为顺序写。官网有数据表明，同样的磁盘，顺序写能到 600M/s，而随机写只有 100K/s。与磁盘的机械机构有关，顺序写之所以快，是因为其省去了大量磁头寻址

PoppyEvan 2020-07-29

安科网

Spark-Streaming 和 Kafka 做实时计算需要注意的点

XHuiLin

XHuiLin

相关推荐

.NET Core下使用Kafka的方法步骤

Apache Kafka 架构和相关概念

架构师的选择，Pulsar还是Kafka？

面试 | 再有人问Kafka，别说你不会！

kafka技术题

【kafka】消费者对应的分配partition分区策略

Kafka之消费与心跳

刨根问底,Kafka消息中间件到底会不会丢消息

记一次生产 Kafka 挂掉的那几分钟

RabbitMQ七战Kafka，差异立现！

Kafka突然宕机了？稳住，莫慌！

监控kafka队列长度

Kafka都没整明白，还敢去面试？

SAP Data Intelligence里的Kafka Producer和Consumer

kafka常见面试题

Windows 安装kafka

【kafka】消费组消费主题

logstash_output_kafka:Mysql同步Kafka深入详解

【kafka】生产者投递消息特征（异步发送）

Kafka基础（八）：高效读写数据

XHuiLin