spark streaming读取kakfka数据手动维护offset

adayan0

2020-01-31

在spark streaming读取kafka的数据中，spark streaming提供了两个接口读取kafka中的数据，分别是KafkaUtils.createDstream，KafkaUtils.createDirectStream，前者会自动把offset更新到zk中，默认会丢数据，效率低，后者不会经过zk，效率更高，需要自己手动维护offse，通过维护护offset写到zk中，保障数据零丢失，只处理一次，下面来看看KafkaUtils.createDirectStream的使用，我把zk的端口改成了9999，防止和kakfa自带的zk的端口产生冲突，下面我写了一些测试代码，经自己测试数据没任何问题，即使spark streaming挂了，另一方往topic中写数据，下次启动streaming程序也能读取，做到数据零丢失，不同的group.id下只读取一次，看看下面代码吧(代码是自己查看kafka中自带的接口和一些其他的资料组合而成，简单的写了一些，参数没写成配置)

offset spark 大数据 zk 数据处理

adayan0

0 关注 0 粉丝 0 动态

相关推荐

Mysql limit offset示例

例1，假设数据库表student存在13条数据。代码示例:语句1：select * from student limit 9,4语句2：slect * from student limit 4 offset 9// 语句1和2均返回表student的第10

wkwanglei 2020-06-13

redis主从复制

　　redis的高并发有一种实现方式就是主从架构，一个master节点，多个slave节点，可以很好的实现slave节点的水平扩容；主从架构再加上读写分离，master节点负责写操作，slave节点负责读操作，使得redis可以很好的做一个高并发的处理。有

qingmuluoyang 2020-06-10

Spring boot集成Kafka消息中间件

#earliest 当各分区下有已提交的offset时，从提交的offset开始消费；无提交的offset时，从头开始消费

sweetgirl0 2020-05-14

kafka 关于offset的理解--关于__consumer_offsets分析

通过命令查 ./bin/kafka-consumer-groups.sh --bootstrap-server ip:9092 --describe --group consumer2. 保存到 kafka配置的~/data文件夹(现有集群为3/分析得出就

yangyutong00 2020-04-26

趣味编程：静夜思（Rust版）

let text = "床前明月光疑是地上霜举头望明月低头思故乡";

Trustport 2020-04-15

kafka从头消费数据

Properties p = new Properties();

guicaizhou 2020-03-25

LIMIT和OFFSET用法小结

②表示从数据库中的第二条数据开始查询两条数据，即第二条和第三条。③表示从数据库中直接取前三条数据。

hellobabygogo 2020-03-20

kafka手动设置offset

项目中经常有需求不是消费kafka队列全部的数据，取区间数据

amwayy 2020-02-03

Undefined offset原因以及解决办法-php利用for遍历二维数组方法-二维数组怎么遍历

echo "<br>数组个数为: $zong";PHP 出现 Notice: Undefined offset:functions - Undefined offsetphp Notice: Undefined offset

igogo00 2020-01-31

kafka重新设置group的offset

使用Kafka自带的kafka-consumer-groups.sh脚本可随意设置消费者组，这是0.11.0.0版本提供的新功能，设置的前提是：consumergroup状态是inactive的，即不能是处于正在工作中的状态。bogon:kafka_0.1

guicaizhou 2020-01-25

kafka（一）

//创建一个topic,名称为test_kafka，partitions为2个，replication有3个，topic的name为test2:. kafka-topics --zookeeper zk1:2181,zk2:2181,zk3:2181 --

amwayy 2019-12-22

springboot中实现kafa指定offset消费

kafka消费过程难免会遇到需要重新消费的场景，例如我们消费到kafka数据之后需要进行存库操作，若某一时刻数据库down了，导致kafka消费的数据无法入库，为了弥补数据库down期间的数据损失，有一种做法我们可以指定kafka消费者的offset到之前

猫咪的一生 2019-12-14

深入了解Kafka【四】消费者的Offset管理

Consumer通过提交Offset来记录当前消费的最后位置，以便于消费者发生崩溃或者有新的消费者加入消费者组，而引发的分区再均衡操作，每个消费者可能会分到不同的分区。我测试的kafka版本是：0.11.0.2，消费者往一个特殊的主题“_consumer_

sweetgirl0 2019-12-08

使用limit,offset分页场景时为什么会慢

五年前在腾讯的时候，发现分页场景下，mysql请求速度非常慢。数据量只有10w的情况下，select xx from 单机大概2，3秒。假设status上面有索引。select * from table where status = xx limit 10

vimysql 2019-11-22

ios中正则表达式的使用

使用正则表达式可以很方便的操作一个字符串，根据一定的规则可以用来查找、替换。

xianfengmc 2013-08-27

JMeter Beanshell

生成Jar包放入jmeterlib目录中。

Cherishyuu 2019-11-17

redis主从复制

一.什么是主从复制？简单来说slave复制master数据。

八角塘塘主 2019-11-08

关于6410开发板Linux内存地址0Xc0008000的由来

查看6410数据手册可以看到，内存开始地址应该是0x50000000，而实际在real6410开发板使用过程中U-boot加载Linux内核都是加载到0xC0008000处开始运行，我猜测这个是因为Linux启动内核的地址为0xC0008000，而U-bo

Rafema 2011-03-08

深入理解Kafka必知必会（上）

与此同时，Kafka 还提供了大多数消息系统难以实现的消息顺序性保障及回溯消费的功能。

猫咪的一生 2019-11-07

kafka的offset相关知识

由于一个partition只能固定的交给一个消费者组中的一个消费者消费，因此Kafka保存offset时并不直接为每个消费者保存，而是以 groupid-topic-partition -> offset 的方式保存。如图所示，一条offset消息的

猫咪的一生 2019-11-06

adayan0

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号