kafka windows环境的搭建之路
简介:kafka是一个分布式的、可分区的、可复制的消息系统,它常常用于处理日志信息,是Apache下的一个开源项目(觉得Apache简直太牛逼了。。)
(一)基本的消息术语:
Kafka将消息以topic为单位进行归纳。
将向Kafka topic发布消息的程序成为producers.
将预订topics并消费消息的程序成为consumer.
Kafka以集群的方式运行,可以由一个或多个服务组成,每个服务叫做一个broker.
topic及分区:一个topic是对一组消息的归纳。对每个topic,Kafka 对它的日志进行了分区。每个分区都由一系列有序的、不可变的消息组成,这些消息被连续的追加到分区中。
分区中的每个消息都有一个连续的序列号叫做offset,用来在分区中唯一的标识这个消息。
分布式:每个分区在Kafka集群的若干服务中都有副本,这样这些持有副本的服务可以共同处理数据和请求,副本数量是可以配置的。副本使Kafka具备了容错能力。
每个分区都由一个服务器作为“leader”,零或若干服务器作为“followers”,leader负责处理消息的读和写,followers则去复制leader.如果leader down了,followers中的一台则会自动成为leader。
集群中的每个服务都会同时扮演两个角色:作为它所持有的一部分分区的leader,同时作为其他分区的followers,这样集群就会据有较好的负载均衡。
producers通过网络将消息发送到Kafka集群,集群向消费者提供消息。如图:
zookeeper在kafak中的作用是用来做软负载均衡的。
客户端和服务端通过TCP协议通信。Kafka提供了Java客户端,并且对多种语言都提供了支持。
(二)Producer & Consumer
Producer将消息发布到它指定的topic中,并负责决定发布到哪个分区。通常简单的由负载均衡机制随机选择分区,但也可以通过特定的分区函数选择分区。使用的更多的是第二种。
发布消息通常有两种模式:队列模式(queuing)和发布-订阅模式(publish-subscribe)。队列模式中,consumers可以同时从服务端读取消息,每个消息只被其中一个consumer读到;发布-订阅模式中消息被广播到所有的consumer中。
Consumers可以加入一个consumer 组,共同竞争一个topic,topic中的消息将被分发到组中的一个成员中。同一组中的consumer可以在不同的程序中,也可以在不同的机器上。如果所有的consumer都在一个组中,这就成为了传统的队列模式,在各consumer中实现负载均衡。
如果所有的consumer都不在不同的组中,这就成为了发布-订阅模式,所有的消息都被分发到所有的consumer中。
更常见的是,每个topic都有若干数量的consumer组,每个组都是一个逻辑上的“订阅者”,为了容错和更好的稳定性,每个组由若干consumer组成。这其实就是一个发布-订阅模式,只不过订阅者是个组而不是单个consumer。
(三)kafak windows环境搭建
好吧,搭建kafka windows还是花费了一番功夫的,网络上关于kafak windows的配置文章不多,即使参照网络上的文章,也是失败N多次。。后来在F哥的帮助下,终于弄好了,再次衷心向他表示感谢。
step1:前往Kafak官网下载页面http://kafka.apache.org/downloads.html下载kafak压缩包(注意下载的kafak版本不要是kafka-xx-src.tgz的哦),这里我下载的版本为
kafka_2.9.2-0.8.1.tgz,下载完毕之后解压。
step2: 下载完毕之后需要检查config目录下几个配置文件:
1)producer.proerties:metadata.broker.list 如果你配置了集群,这里要加上多个broker节点,每个节点用,隔开。形如:localhost:9092, ip2:9093, ip3:9092(broker节点在
不同机器上)或者ip:9092, ip:9093, ip:9094(broker节点在同一机器不同端口)
2)server.properties:log.dirs 指定kafka服务端启动后日志存放的目录。一般下载下来之后,log.dirs=/tmp/kafka-logs,如果你不修改,启动kafak-server-start.bat的话很容易
报关于Log4j的错的。建议在kafka解压后的根目录下,创建一个tmp的目录,下面可以有kafka-logs和zookeeper两个目录分别存放kafka和zookeeper的日志;
检查zookeeper.connect的路径是否是本地路径
3)同理(2),检查zookeeper.properties的dataDir(解压后默认为/tmp/zookeeper),可以修改成2)里面tmp下的zookeeper目录
step3:修改bin/windows下面的kafak-run-class.bat文件,这个文件也是最容易导致kafak启动出错的地方!
修改set ivyPath对应的路径要指向你解压后libs的路径,如E:\kafka_2.9.2-0.8.1\libs,不然也超级容易报错!
依次检查下面几个set call的代码,形如:
set snappy=%ivyPath%\snappy-java-1.0.5.jar call :concat %snappy%
因为可能他set xxx = %ivyPath%\yyy.jar ,但你下载后的libs目录下的jar包不一定有yyy.jar,如果是这样,把你libs下面不存在的jar包,但该.bat文件里又set的jar包的代码删除即可!
继续检查
IF ["%KAFKA_OPTS%"] EQU [""] ( set KAFKA_OPTS=-Xmx512M -server -Dlog4j.configuration=file:"%BASE_DIR%\config\log4j.properties" )
看KAFKA_OPTS指定的路径是否正确,建议手动修改成config下面log4j.properties的路径
step4:检查config/log4j.properties文件,kafka.logs.dir= 看看指定的路径在你本地是否存在,建议修改成你本地的日志文件目录。
step5:几个主要的配置文件修改完毕之后。不妨把config下面的server.properties和zookeeper.properties拷贝到bin/windows/下面。然后在bin/windows下建立2个.bat文件分别用于
启动zookeeper和kafka。内容如下:
zookeeper-start.bat:
zookeeper-server-start.bat zookeeper.properties
kafka-start.bat
kafak-server-start.bat server.properties
以上,windows操作系统下kafka的环境搭建就准备了。想要启动kafka,即可先运行zookeeper-start.bat文件,再运行kafka-start.bat文件。
说下在搭建kafak的windwos运行环境出现的异常:
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/zookeeper/
server/quorum/QuorumPeerMain
Caused by: java.lang.ClassNotFoundException: org.apache.zookeeper.server.quorum.
QuorumPeerMain
at java.net.URLClassLoader$1.run(URLClassLoader.java:202)
at java.security.AccessController.doPrivileged(Native Method)
at java.net.URLClassLoader.findClass(URLClassLoader.java:190)
at java.lang.ClassLoader.loadClass(ClassLoader.java:306)
at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:301)
at java.lang.ClassLoader.loadClass(ClassLoader.java:247)
Could not find the main class: org.apache.zookeeper.server.quorum.QuorumPeerMain
. Program will exit.
这个就是因为你拿到一个从官网上下载下来的kafak压缩包解压之后,未做任何配置文件以及.bat文件的修改所造成的错误之一。
(四)需要注意的几点:
1)kafka之所以开源,就意味着你download一个版本之后,如果启动报错,必须打开响应的.bat文件,看看是哪里报的错。最有可能的就是一些配置未做修改,并不是下载完之后就万事大吉了;
2).bat文件是windows环境下类似Linux操作系统的Shell脚本,是可执行文件。想看看里面定义的变量,要学会echo(回显) %变量名% 的命令,pause(打断点)命令的使用!
3)启动kafka之前必须先启动zookeeper,但是这不意味着你必须单独再开启一个zookeepr,因为查看zookeeper.bat你会发现:
kafka-run-class.bat org.apache.zookeeper.server.quorum.QuorumPeerMain %*
而再查看kafka-run-class.bat 又会发现:
set zookeeper=%ivyPath%\zookeeper-3.3.4.jar call :concat %zookeeper%
这说明,kafka对于zookeeper的支持是在libs目录下有一个zookeeper-xx.jar包的。