Clickhouse Kafka Engine 使用

xianyuxiaoqiang

2019-09-26

关注关注

在使用ClickHouse的过程中，数据接入的方式有很多种，最近在尝试使用kafka的方式进行数据的入库，目前大概有两种方案：

内部kafka 引擎方式接入
clickhouse_sinker

尝试第一种方式，既kafka引擎方式进行接入。

具体操作步骤如下：

- 搭建kafka服务器可以参照 spring cloud stream Kafka 示例里，kafka搭建方式
- 创建kafka 引擎的表
- CREATE TABLE tkafka (
  timestamp UInt64,
  level String,
  message String
  ) ENGINE = Kafka SETTINGS kafka_broker_list = ‘192.168.1.198:9092’,
  kafka_topic_list = ‘test2’,
  kafka_group_name = ‘group1’,
  kafka_format = ‘JSONEachRow’,
  kafka_row_delimiter = ‘\n’,
  kafka_num_consumers = 1;
- 创建一个结构表
- CREATE TABLE daily (
  day Date,
  level String,
  total UInt64
  ) ENGINE = SummingMergeTree(day, (day, level), 8192);
- 创建物化视图
- CREATE MATERIALIZED VIEW consumer TO daily AS SELECT toDate(toDateTime(timestamp)) AS day, level, count() as total FROM tkafka GROUP BY day, level;

整个过程就完毕了，其中需要消息发送主要是JSONEachRow，也就是JSON格式的数据，那么往topic 里面写入JSON数据即可。

bin/kafka-console-producer.sh --broker-list 127.0.0.1:9092 --topic test2
>{"timestamp":"1562209583","level":"2","message":"hello2"}

发送数据后需要关闭通道，不然无法查询到数据。

SELECT level, sum(total) FROM daily GROUP BY level;

问题解答

1. Cannot parse input: expected { before: \0: (at row 2)

问题出在引擎版本上，我使用的是19.3.4 版本。19.1 版本没有问题， 19.5.2.6 版本解决了此问题，也就是中间版本存在这个问题。

原因：消息中数据之间的分割符号未指定，导致无法处理。

解决办法：添加 kafka_row_delimiter = ‘\n’，也就是上文键标红的部分。

参考解决地址： https://github.com/yandex/ClickHouse/issues/4442

2. 消息发送后，数据无法查询。

原因：kafka 引擎默认消费根据条数与时间进行入库，不然肯定是没效率的。

解决办法：其中对应的参数有两个。 max_insert_block_size ，stream_flush_interval_ms。

这两个参数都是全局性的。

max_insert_block_size 默认值为： Default value: 1,048,576.

参考地址： https://clickhouse.yandex/docs/zh/operations/settings/settings/#settings-max_insert_block_size

stream-flush-interval-ms 默认值为： The default value is 7500.

实战：

注意发送后关闭通道

严格的物化顺序，不允许中间删除再补

user.xml文件中：有效

<max_memory_usage>120000000000</max_memory_usage> 解决查询峰值问题,查询异常不稳定

<max_insert_block_size>2048576</max_insert_block_size> 防止溢出

<stream_flush_interval_ms>750</stream_flush_interval_ms> 解决快速看效果

可用脚本：

例子：

创建队列：

./kafka-topics.sh --create --zookeeper zk01:2181 --replication-factor 1 --partitions 1 --topic log_test1

发送消息：

./kafka-console-consumer.sh --bootstrap-server node01:9092 --topic log_test

接受消息：

sh bin/kafka-console-producer.sh --broker-list node01:9092 --topic log_test1

{"timestamp":"1562209583","level":"2","message":"hello2"}

CREATE TABLE default.tkafka (

timestamp UInt64,

level String,

message String

) ENGINE = Kafka SETTINGS kafka_broker_list = '192.168.202.135:9092,192.168.202.136:9092,192.168.202.185:9092',

kafka_topic_list = 'log_test55',

kafka_group_name = 'group1',

kafka_format = 'JSONEachRow',

kafka_row_delimiter = '\n',

kafka_num_consumers = 1;

CREATE TABLE default.daily (

day Date,

level String,

total UInt64

) ENGINE = SummingMergeTree(day, (day, level), 8192);

CREATE MATERIALIZED VIEW default.consumer TO daily AS SELECT toDate(toDateTime(timestamp)) AS day, level, count() as total FROM default.tkafka GROUP BY day, level;

参考地址：

https://clickhouse.yandex/docs/zh/operations/settings/settings/#stream-flush-interval-ms

这个参数改小时影响整个数据库的，所以如果不好调整请采用方案2。clickhouse_sinker.

github 地址： https://github.com/housepower/clickhouse_sinker

参考：https://www.cqmaple.com/201907/clickhouse-kafka-engine.html

kafka font margin

安科网

Clickhouse Kafka Engine 使用

xianyuxiaoqiang

问题解答

xianyuxiaoqiang

相关推荐

.NET Core下使用Kafka的方法步骤

架构师的选择，Pulsar还是Kafka？

Kafka之消费与心跳

刨根问底,Kafka消息中间件到底会不会丢消息

记一次生产 Kafka 挂掉的那几分钟

面试 | 再有人问Kafka，别说你不会！

RabbitMQ七战Kafka，差异立现！

Kafka突然宕机了？稳住，莫慌！

监控kafka队列长度

Kafka都没整明白，还敢去面试？

SAP Data Intelligence里的Kafka Producer和Consumer

kafka技术题

kafka常见面试题

Windows 安装kafka

【kafka】消费组消费主题

logstash_output_kafka:Mysql同步Kafka深入详解

【kafka】生产者投递消息特征（异步发送）

【kafka】消费者对应的分配partition分区策略

Kafka基础（八）：高效读写数据

Apache Kafka 架构和相关概念

xianyuxiaoqiang