spark streaming 与 kafka 集成测试

上班打发

2016-11-22

版本：

kafka：2.11

spark：2.0.2

测试过程：

1、开发spark streaming程序，读取kafka队列数据，并进行处理；

2、启动spark、zookeeper及kafka；

3、启动log4j输出到kafka的程序，先用kafka receive console程序验证其正确性；

4、启动spark streaming程序，观察执行效果，启动命令如下：

spark-submit --class com.itown.bigdata.kafka.KafkaReader /usr/hadoop/jar/sparkApp-0.0.1-SNAPSHOT-jar-with-dependencies.jar

开发过程：

1、java类：

注意：

参照 http://spark.apache.org/docs/latest/streaming-kafka-0-10-integration.html 进行的开发

package com.itown.bigdata.kafka;

import java.util.Arrays;

import java.util.Collection;

import java.util.HashMap;

import java.util.Iterator;

import java.util.Map;

import java.util.regex.Pattern;

import org.apache.kafka.clients.consumer.ConsumerRecord;

import org.apache.kafka.common.serialization.StringDeserializer;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.function.FlatMapFunction;

import org.apache.spark.api.java.function.Function2;

import org.apache.spark.api.java.function.PairFunction;

import org.apache.spark.streaming.Duration;

import org.apache.spark.streaming.api.java.JavaDStream;

import org.apache.spark.streaming.api.java.JavaInputDStream;

import org.apache.spark.streaming.api.java.JavaPairDStream;

import org.apache.spark.streaming.api.java.JavaStreamingContext;

import org.apache.spark.streaming.kafka010.ConsumerStrategies;

import org.apache.spark.streaming.kafka010.KafkaUtils;

import org.apache.spark.streaming.kafka010.LocationStrategies;

import scala.Tuple2;

import com.google.common.collect.Lists;

public class KafkaReader {

 static final Pattern SPACE = Pattern.compile(" ");

 public static void main(String[] args) {

 // 每个话题的分片数

 int numThreads = 2;

 SparkConf sparkConf = new SparkConf().setAppName("KafkaWordCount")

 .setMaster("local[2]");

 JavaStreamingContext jssc = new JavaStreamingContext(sparkConf,

 new Duration(10000));

 Map<String, Object> kafkaParams = new HashMap<String, Object>();

 kafkaParams.put("bootstrap.servers", "localhost:9092");

 kafkaParams.put("key.deserializer", StringDeserializer.class);

 kafkaParams.put("value.deserializer", StringDeserializer.class);

 kafkaParams.put("group.id", "use_a_separate_group_id_for_each_stream");

 kafkaParams.put("auto.offset.reset", "latest");

 kafkaParams.put("enable.auto.commit", false);

 Collection<String> topics = Arrays.asList("test", "test2");

 final JavaInputDStream<ConsumerRecord<String, String>> stream = KafkaUtils

 .createDirectStream(jssc,

 LocationStrategies.PreferConsistent(),

 ConsumerStrategies.<String, String> Subscribe(topics,

 kafkaParams));

 JavaDStream<String> words = stream

 .flatMap(new FlatMapFunction<ConsumerRecord<String, String>, String>() {

 public Iterator<String> call(

 ConsumerRecord<String, String> t) throws Exception {

 System.out.println(">>>" + t.value());

 return Lists.newArrayList(SPACE.split(t.value()))

 .iterator();

}

});

 // 对其中的单词进行统计

 JavaPairDStream<String, Integer> wordCounts = words.mapToPair(

 new PairFunction<String, String, Integer>() {

 public Tuple2<String, Integer> call(String s) {

 return new Tuple2<String, Integer>(s, 1);

}

 }).reduceByKey(new Function2<Integer, Integer, Integer>() {

 public Integer call(Integer i1, Integer i2) {

 return i1 + i2;

}

});

 // 打印结果

 wordCounts.print();

 try {

 jssc.start();

 jssc.awaitTermination();

 } catch (InterruptedException e) {

 // TODO Auto-generated catch block

 e.printStackTrace();

}

}

}

2、maven pom.xml

注意：

1）spark-streaming-kafka的引用部分

2）打包同时将依赖包也打了进来

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

 xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

 <modelVersion>4.0.0</modelVersion>

 <groupId>com.itown.bigdata</groupId>

 <artifactId>sparkApp</artifactId>

 <version>0.0.1-SNAPSHOT</version>

 <packaging>jar</packaging>

 <name>sparkApp</name>

 <url>http://maven.apache.org</url>

 <properties>

 <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>

 </properties>

 <dependencies>

 <dependency>

 <groupId>org.apache.spark</groupId>

 <artifactId>spark-core_2.11</artifactId>

 <version>2.0.2</version>

 </dependency>

 <dependency>

 <groupId>org.apache.hadoop</groupId>

 <artifactId>hadoop-client</artifactId>

 <version>2.7.3</version>

 </dependency>

<dependency>

 <groupId>org.apache.spark</groupId>

 <artifactId>spark-streaming_2.11</artifactId>

 <version>2.0.2</version>

 </dependency>

 <dependency>

 <groupId>org.apache.spark</groupId>

 <artifactId>spark-streaming-kafka-0-10_2.11</artifactId>

 <version>2.0.2</version>

 </dependency>

 <dependency>

 <groupId>org.apache.hbase</groupId>

 <artifactId>hbase-server</artifactId>

 <version>1.2.4</version>

 </dependency>

 </dependencies>

 <build>

 <plugins>

 <plugin>

 <artifactId>maven-compiler-plugin</artifactId>

 <version>2.3.2</version>

 <configuration>

 <source>1.8</source>

 <target>1.8</target>

 </configuration>

 </plugin>

 <plugin>

 <artifactId> maven-assembly-plugin </artifactId>

 <configuration>

 <descriptorRefs>

 <descriptorRef>jar-with-dependencies</descriptorRef>

 </descriptorRefs>

 </configuration>

 <executions>

 <execution>

 <id>make-assembly</id>

 <phase>package</phase>

 <goals>

 <goal>single</goal>

 </goals>

 </execution>

 </executions>

 </plugin> 

 </plugins>

 </build>

 <repositories> 

 <repository> 

 <id>central</id> 

 <name>central</name> 

 <url>http://central.maven.org/maven2/</url> 

 <releases> 

 <enabled>true</enabled> 

 </releases> 

 </repository>

 </repositories> 

</project>

line-height white-space kafka 集成测试

上班打发

0 关注 0 粉丝 0 动态

关注关注

Ubuntu 安装Docker

Unbutu系统上安装Docker服务，为保证docker服务的运行未定，需要使用与之相匹配的docker版本，使用命令。若看到上述信息，表明docker安装成功！默认情况下，docker从hub上下载需要安装的进行，囿于这些hub位于国外，下载速度缓慢，

pigsmall 2020-11-19

jackson gson

private static final ObjectMapper objectMapper = new ObjectMapper();

SXIAOYI 2020-09-16

20个CSS快速提升技巧

本文涵盖了20个css技巧，可以解决许多工作中常见的问题。css重置库如normalize.css已经被使用很多年了，它们可以为你的网站样式提供一个比较清晰的标准，来确保跨浏览器之间的一致性。大多数项目并不需要这些库包含的所有规则，可以通过一条简单的规则来

Ladyseven 2020-07-25

spring cloud 知识点

spring cloud 是一系列框架的有序集合。它利用 spring boot 的开发便利性巧妙地简化了分布式系统基础设施的开发，如服务发现注册、配置中心、消息总线、负载均衡、断路器、数据监控等，都可以用 spring boot 的开发风格做到一键启动和

whileinsist 2020-06-24

HTML中怎么使文字各种居中对齐？（代码示例）

本篇文章主要介绍了如何去写关于html文字居中代码。希望对有需要的朋友有所帮助。前端10K面试准备，最完整面试真题分享（含答案）！text-align 属性规定元素中的文本的水平对齐方式。通过允许用户代理调整行内容中字母和字之间的间隔，可以支持值 just

gufudhn 2020-06-12

css中元素垂直居中的n种方法

本文章收集了多种实现居中布局的方法，并且按照实现的时间线，从css2到css3的各种解决方案，从代码量有少到多的排序来一一说明每种布局方法的实现方式，通过阅读此文章能够让你解决平时的开发中遇到的各种布局问题。line-height：用于设置多行元素的空间量

冰蝶 2020-06-05

云计算交付模型知多少 - IaaS、PaaS、SaaS

对于互联网公司而言，迁移到云是一个明智的决定。它减少了总的成本支出，同时最大限度地提高了工作效率和生产率，本文将指出迁移到云或者建设私有云优缺点以及边界在哪里？本地通常是提前把软件基础架构部署在用户计算机上，所有资源使用者自己访问和管理; 相对于本地服务，

LinuxAndroidAI 2020-06-04

Spring Cloud 和 Dubbo 哪个会被淘汰？

今天看到了这样一个问题：Spring Cloud 和 Dubbo哪个会被淘汰？看了几个回答，都觉得不在点子上，所以要么就干脆写篇小文瞎逼叨一下。时至今日，这两个框架放到现在，已经不存在谁取代谁这一说了。不论从Spring Cloud用户来说，还是Dubbo

supperme 2020-05-28

css中vertical-aling与line-height

x-height: 字母x的高度，vertical-aling设置为middle的时候，对齐的是baseline往上1/2的x-height，所以vertical-aling设置为middle不是整正的居中对齐。最终的计算值是和当前 font-size 相

yaodilu 2020-05-10

CSS中的line-height和vertical-height

line-height 设置的是行高，指的是段落中每行文字间的距离。一般来说，将 line-height 设置为 div 元素的高度，则 div 内部的文字将会垂直居中显示。line-height 与 font-size 的计算值之差分为两半，分别加到一行

e度空间 2020-04-27

CSS行高——line-height

底线和顶线包裹的区域，实际中不一定看得到，但却是存在。以em、ex和百分比为单位的行高，其基数是元素本身的字体尺寸。<p style="font-size:20px;line-height:2em;">字高20px，行高2e

云端漂移 2020-04-09

js正则表达式

javascript 正则表达式和 java perl 等的有些不一样，比如没有后向预查等。不过不能得到匹配的位置。即如果加了全局g标志，正则表达式的分组信息将丢失。这是一种特殊的构造方式。并且注意这里的正则表达式不需要像用字符串构造RegExp 对象那

peterwzc 2020-03-17

jQuery EasyUI视频教程，更新到第20课

由于我也是上班族，也是个程序猿，所以我打算一周左右出一集，大家不要催我，毕竟我业余时间也不是很多。还有本人英文也不咋的，讲解的时候有什么错误欢迎指出，共同学习。大家支持一下，注册一下，给论坛增加一点人气。所以隐藏了下载地址，请回复支持吧```视频是用屏录专

有心就有方向 2012-09-03

转: 7 款华丽的 jQuery/CSS3 效果及源码

很久没有和大家分享精美的jQuery/CSS3应用了，这两天有时间收集了几款新发布的jQuery/CSS3插件，于是就分享给大家，如果喜欢的话请向你的朋友和同事推荐吧。在线演示 /源码下载2、CSS3带头像3D下拉菜单这款CSS3下拉菜单设计富有创意，菜单

ebuild 2013-05-14

编写高效的JavaScript程序

一个基本的编译器，在代码执行前分析JavaScript、生成本地机器代码而非执行字节代码或是简单的解释，该段代码之初不是高度优化的。V8用对象模型“表述”对象。在JavaScript中，对象是一个关联数组，但是V8中，对象被“表述”为隐藏类，这种隐藏类是V

donghedonghe 2013-05-31

svn c命令

大数据资料共享。

ganyouxianjava 2012-05-31

(转载)无联网情况下如何让MyEclipse 识别 spring-beans-2.5.xsd 文件

使用myeclipse开发spring，在编写配置文件的时候可能遇到无法使用帮助，来自动添加xml元素的问题，是因为无法查找spring的DTD描述。这里做个记录手工添加DTD的方法window--》preferences--》MyEclipse--》Fi

tdeclipse 2011-02-28

linux top 命令

最近用LR做性能测试，遇到一个问题，就是当系统压力大时，用LR通近RPC协议监控压测服务器经常会挂掉，这样就监控不到服务器的性能情况。同时，我一般用top在后台观察服务器性能，但是需要时刻查看，因为系统默认是1S更新一次,不能保存服务器性能。top是一个动

linuxprobe0 2013-04-15

linux下安装与卸载JDK1.6

Sun Microsystems, Inc. Binary Code License Agreement for theJAVATM 2 SOFTWARE DEVELOPMENT KIT , STANDARDEDITION, VERSION 1.4.2_X

linuxprobe0 2013-04-01

centos 内网校时

定时较准时间：# crontab -e //打开linux定时计划任务0 23 * * * /usr/sbin/ntpdate 210.72.145.44 //时间格式如下：如果23改为0-23/2 就表示每隔2小时执行一次* * * * * *| |

83560193 2013-06-25

安科网

spark streaming 与 kafka 集成测试

上班打发

上班打发

相关推荐

Ubuntu 安装Docker

jackson gson

20个CSS快速提升技巧

spring cloud 知识点

HTML中怎么使文字各种居中对齐？（代码示例）

css中元素垂直居中的n种方法

云计算交付模型知多少 - IaaS、PaaS、SaaS

Spring Cloud 和 Dubbo 哪个会被淘汰？

css中vertical-aling与line-height

CSS中的line-height和vertical-height

CSS行高——line-height

js正则表达式

jQuery EasyUI视频教程，更新到第20课

转: 7 款华丽的 jQuery/CSS3 效果及源码

编写高效的JavaScript程序

svn c命令

(转载)无联网情况下如何让MyEclipse 识别 spring-beans-2.5.xsd 文件

linux top 命令

linux下安装与卸载JDK1.6

centos 内网校时

上班打发