linux-flume1.8收集nginx日志到kafka

competeking

2017-11-16

关注关注

简介

Apache Flume是一个分布式、可靠、可用的系统，用于从大量不同的源有效地收集、聚合、移动大量日志数据进行集中式数据存储。

linux-flume1.8收集nginx日志到kafka

工作流程简介

Flume的核心是Agent，Agent中包含Source、Channel、Sink。Agent是最小的独立运行单位。在Agent中，数据流向为Source->Channel->Sink。

linux-flume1.8收集nginx日志到kafka

这里我们主要讲下收集nginx日志的几个过程：

nginx产生访问日志；
flume通过tail -F 监控文件增加来收集数据到source，传递给channel；
channel数据通道，接收Source的数据并储存，传递给Sink；
Sink消费Channel中的数据，传递到kafka。

Flume传输的数据的基本单位是Event，Event同时也是事务操作的基本单位。通常传输的日志内容存储在Event中。Event由可选的header和载有数据的byte array构成。

linux-flume1.8收集nginx日志到kafka

配置示例

下载jdk和apache-flume，jdk可以在oracle官网就可以下载到，apache-flume可以在国内apache镜像源（比如阿里云镜像）里面就有了。

配置好jdk环境，解压apache-flume，目前最新稳定版本是1.8.0

linux-flume1.8收集nginx日志到kafka

1、设置flume的JAVA_HOME变量

cd apache-flume-1.8.0-bin/conf

cp cp flume-env.sh.template flume-env.sh

echo 'export JAVA_HOME=/opt/jdk' >> flume-env.sh

2、设置flume配置文件

vim agent1.conf

agent.sources.s1.type=exec

#这里执行要运行获取数据的命令

agent.sources.s1.command=tail -F /usr/loca/nginx/logs/access.log

agent.sources.s1.channels=c1

agent.channels.c1.type=memory

agent.channels.c1.capacity=10000

agent.channels.c1.transactionCapacity=100

#设置Kafka接收器

agent.sinks.k1.type= org.apache.flume.sink.kafka.KafkaSink

#设置Kafka的broker地址和端口号

agent.sinks.k1.brokerList=192.168.30.2:9092

#设置Kafka的Topic

agent.sinks.k1.topic=nginx_logs

#设置序列化方式

agent.sinks.k1.serializer.class=kafka.serializer.StringEncoder

agent.sinks.k1.channel=c1

linux-flume1.8收集nginx日志到kafka

3、启动

./bin/flume-ng agent -n agent -c conf -f conf/agent1.conf -Dflume.root.logger=INFO,console

kafka环境搭建可以参照这个文章：CentOS-尝试部署kafka集群

linux-flume1.8收集nginx日志到kafka

flume kafka nginx

competeking

0 关注 0 粉丝 0 动态

关注关注

Kafka、Flume、Kinesis更多的流方式支持，包括Twitter、ZeroMQ等

可线性伸缩至超过数百个节点；实现亚秒级延迟处理；可与Spark批处理和交互式处理无缝集成；提供简单的API实现复杂算法；更多的流方式支持，包括Kafka、Flume、Kinesis、Twitter、ZeroMQ等。Spark在接收到实时输入数据流后，将数据

jiaomrswang 2020-06-26

Flume基础（十一）：自定义 Interceptor

使用 Flume 采集服务器本地日志，需要按照日志类型的不同，将不同种类的日志发往不同的分析系统。　　在实际的开发中，一台服务器产生的日志类型可能有很多种，不同类型的日志可能需要发送到不同的分析系统。　　在该案例中，我们以端口数据模拟日志，以数字（单个）和

chenguangchun 2020-07-26

使用Flume

实例1: 监听端口,把输入端口的信息以日志的形式输出到控制台中。# 命名此代理上的组件。agent.channels = memoryChannel # Channel的名称。# 定义每个通道的类型。vim example.conf # 这个心启动

myt0 2020-07-18

切记，在进行flume监测文件时采用的是正则表达式

# Name the components on this agenta1.sources = r1a1.channels = c1 c2a1.sinks = k1 k2. #此处若只写.log那么肯定不行啊，这样就只监测文件名称为.log的文件而不是后缀

IT影风 2020-07-18

Flume

在flume的安装目录下，创建文件夹data，在data中创建一个文件basic.conf，内容如下　　。执行agent-avro客户端指令，在flume的安装目录的bin目录下：a.txt是需要进行操作的文件，必须存在

chenguangchun 2020-06-28

大数据消息日志

scribe_百度百科https://baike.baidu.com/item/scribe flume（日志收集系统）_百度百科https://baike.baidu.com/item/flume/6250098 Kafka（科技术语）_百度百科

myt0 2020-06-16

Flume SinkProcessor

需求：flume1采集端口数据，发送给flume2或flume3。当flume2或3挂掉后，发送给另一台flume。flume1配置：NetCat Source -> Memory Channel -> Avro Sink

xiaoxiaojavacsdn 2020-06-08

flume

Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。a)Source：采集组件，用于跟数据源对接，以获取数据。c)Channel：传输通道组件，用于从source将数据传递到sink. #因为要存到hdfs上，所以下沉组件位hdfs.

zzjmay 2020-06-07

Flume-0.9.4和Hbase-0.96整合

Flume里面自带了Hbase sink，可以直接调用啊，还用说么？这是因为Flume-0.9.4和Hbase-0.96整合比Flume-1.4.0和Hbase-0.96整合麻烦多了！不是随便几个配置就能搞定的，里面涉及到修改Flume和Hadoop的源码

strongyoung 2020-06-04

自定义Source sink

public class MySource extends AbstractSource implements Configurable, PollableSource {. 将写好的代码打包，并放到flume的lib目录下。[ flume]$ bin/f

ErixHao 2020-05-20

dockerfile动态修改服务配置文件

主要是利用命令envsubst能实现变量的替换并生成新得配置文件以及docker命令行的变量输入等。本次实验主要是编写flume镜像，并在容器启动时动态修改配置文件并启动，并向flume发数据，然后发给kafka。RUN rpm -i /root/jdk-

啦啦啦啦啦 2020-05-15

flume安装及ganglia使用

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。Agent是一个JVM进程，它以事件的形式将数据从源头送至目的。Agent主要有3个部分组成，Source、Channel、

wanfuchun 2020-05-14

Stream整合Flume

def updateFunction(newValues: Seq[Int], runningCount: Option[Int]): Option[Int] = {. val sc: SparkContext = new SparkContext(spa

onwaygoahead 2020-05-05

Flume基础知识

sink负责将数据写入到指定的输出位置，根据输出目的地的不同，需要使用不同的sink。一个sink只能去一个channel取数据。是source和sink的连接，负责缓冲event，source将数据放入到channel，sink主动从channel取，当

xiaoxiaojavacsdn 2020-05-01

flume安装部署

c.将apache-flume-1.5.0-src文件夹中的内容全部复制到apache-flume-1.5.0-bin文件中

IT影风 2020-05-01

centos7安装flume

# -c conf：指定自带配置文件-f conf/tail-hdfs.conf:自定义配置文件 -n ag1：agent名称

chenguangchun 2020-04-18

Flume

# Flume 监控文本文件sink到kafka

wsong 2020-04-15

flume实时监控日志文件到hdfs

#上传文件的前缀。#重新定义时间单位。#是否使用本地时间戳。#积攒多少个Event才flush到HDFS一次。#设置文件类型，可支持压缩。#多久生成一个新的文件。#文件的滚动与Event数量无关。# Use a channel which buffers

QAnyang 2020-03-14

Flume + Kafka系统搭建

A、启动Kafka集群。bin/flume-ng agent -n a1 -c conf -f conf/fl.conf -Dflume.root.logger=DEBUG,console. bin/kafka-console-consumer.sh --

wsong 2020-03-13

大数据开发:(三)flume上传HDFS

如果jps查看缺少了某个节点，首先查看xml文件是否正确，如果正确，删除hadoop/tmp文件夹，然后再次格式化，，再次启动。将flume文件下得conf中flume-env.ps1.template复制一份，改为flume-env.ps1. 修改con

硅步至千里 2020-02-22

安科网

linux-flume1.8收集nginx日志到kafka

competeking

简介

工作流程简介

配置示例

competeking

相关推荐

Kafka、Flume、Kinesis更多的流方式支持，包括Twitter、ZeroMQ等

Flume基础（十一）：自定义 Interceptor

使用Flume

切记，在进行flume监测文件时采用的是正则表达式

Flume

大数据消息日志

Flume SinkProcessor

flume

Flume-0.9.4和Hbase-0.96整合

自定义Source sink

dockerfile动态修改服务配置文件

flume安装及ganglia使用

Stream整合Flume

Flume基础知识

flume安装部署

centos7安装flume

Flume

flume实时监控日志文件到hdfs

Flume + Kafka系统搭建

大数据开发:(三)flume上传HDFS

competeking