如何设计百万级商品数据实时同步的秒级搜索系统？

Kingonion

2020-03-18

【金融特辑】光大银行科技部DBA女神带你从0到1揭秘MGR

前阵子老板安排了一个新任务，要建设一个商家商品搜索系统，能够为用户提供快速、准确的搜索能力。

如何设计百万级商品数据实时同步的秒级搜索系统？

图片来自 Pexels

设计要求在用户输入搜索内容时，要能从商家名称和商品名称两个维度去搜索，搜索出来的结果，按照准确率排序，并按商家所属商品的关联关系，来组合数据结构，同时提供 API 给业务系统调用。

背景很简单，现实蛮复杂!我们面临以下几个难题：

商家数据库和商品数据库是多台不同的服务器，并且数据量达百万级，如何才能实现跨数据库的数据同步呢?
商家和商品的数据是有从属关系的，不然就会把肯德基的香辣鸡腿堡挂到麦当劳去，这就尴尬了!
商家商品数据是经常更新的，比如修改价格、库存、上下架等，那搜索服务可不能搜出一堆过时的数据，如果客户明明搜出来的商品，点进去后却已下架了，那么客户就要吐槽了!如何实现搜索数据与源数据库增删改均实时同步呢?

带着以上三个问题，我们开始了搜索服务的整体架构设计。

系统架构设计思路

为了设计出合适的系统架构，我们分析了现状：

首先，商家数据和商品数据分别存储在 2 个独立的 MySQL8 数据库，为满足商家数据和商品数据的关联，我们需要将两个库中所需要的表实时 ETL 到我们的搜索系统数据库。

其次，数据从商家、商品数据库 ETL 到搜索系统数据库后，需要实时的组合成为商家关联商品数据结构，并以父子文档的格式，存储到 ES 中。

最后，商家、商品数据库的增删改操作，需要实时的同步到 ES 中，也就是 ES 中的数据，需要支持实时的增加、删除和修改。

为此，我们设计了 2 个 Canal 组件，第一个 Canal 实现数据 ETL，把商家、商品数据库的某些表及字段，抽取到搜索服务数据库。

再利用第二个 Canal，读取搜索服务 MySQL 数据库的 Binlog，实时传输到 Kafka 消息队列，再由 canal adapter 对数据进行关联、父子文档映射等，将处理好的数据存储到 ElasticSearch 中。

具体系统架构设计如下图所示：

如何设计百万级商品数据实时同步的秒级搜索系统？

商家商品搜索系统架构设计

项目实战

环境及软件说明

操作系统：CentOS 7 
canal：canal.adapter-1.1.4，canal.deployer-1.1.4 
kafka：kafka_2.12-2.3.0 
ElasticSearch：elasticsearch-6.3.2 
kibana：kibana-6.3.2

用 Canal 实现数据 ETL 到 MySQL8

这个步骤是利用 Canal 从 2 个独立的 MySQL8 数据库中，抽取需要的表到搜索服务的 MySQL 数据库。

①安装 canaldeployer

解压 canal.deployer-1.1.4.tar.gz，并配置 canal deployer。

进入 canaldeployer/conf 目录，修改 canal.properties 文件，主要配置 serverMode、MQ 和 destination 三部分。

首先，我们 serverMode 修改为 Kafka 模式，增加系统缓冲能力以及提高系统稳定性：

如何设计百万级商品数据实时同步的秒级搜索系统？

serverMode

接着，配置 Kafka 的 MQ 信息(Kafka 请自行安装)：

如何设计百万级商品数据实时同步的秒级搜索系统？

Kafka MQ 信息

最后，配置需要实例化的 instance，这里配置了 3 个，表示 canal deploy 会启动这 3 个实例，同步 MySQL 的 Binlog 到 Kafka 的 Topic 内。

如下图所示：

如何设计百万级商品数据实时同步的秒级搜索系统？

destinations 实例配置

配置 canal deployer instance：进入 canaldeployer/conf/example 目录，发现有一个 instance.properties 文件，这是 Canal 给的示例，我们可以参考其配置。

我们拷贝整个 example 目录，并重命名为上个步骤配置的 destination 之一，如 xxxsearch。

进入 xxxsearch 目录，编辑 instance.properties 文件，主要配置源数据库信息、所需数据表及字段，以及指定 Kafka 的 Topic 名。

这样源数据库的 Binlog 就会转换为 Json 数据，并实时的通过 canal deployer 传输到 Kafka 该 Topic 中。

如下所示：

如何设计百万级商品数据实时同步的秒级搜索系统？

canaldeploy instance 源数据库配置

如何设计百万级商品数据实时同步的秒级搜索系统？

canaldeploy instance kafka topic配置

进入 canaldeployer/bin 目录，执行 ./startup.sh，启动 canal deployer 及所属实例。至此 canal deployer 搭建完成。

②安装 canal.adapter

我们需要利用 canal.adapter 将 Kafka Topic 中的 binlog json 数据，经过清洗转换等操作，存储到 MySQL8 中。由于 Canal 原生是不支持 MySQL8 的，故我们需要做一些调整。

增加 MySQL8 连接驱动：解压 canal.adapter-1.1.4.tar.gz，进入 canaladapter/lib 目录，移除 mysql-connector-java-5.1.40.jar，导入 mysql-connector-java-8.0.18.jar。

配置 canal adapter，使数据输出到 MySQL8：进入 canaladapter/conf 目录，编辑 application.yml 文件，主要配置消费 Kafka、源数据库信息和搜索系统数据库信息。

如下所示：

如何设计百万级商品数据实时同步的秒级搜索系统？

ETL 到 MySQL8 配置

接着，进入 canaladapter/conf/rdb 目录，以官方提供的 mytest_user.yml 为例，配置 Kafka Topic 名、源数据库名、源数据表名，以及目标数据库名和目标数据表名，建议一张表对应一个 yml 文件。

如何设计百万级商品数据实时同步的秒级搜索系统？

ETL 表结构映射配置

启动 canaladapter：进入 canaladapter/bin 目录，执行 ./startup.sh，启动 canal adapter，观察 logs/adapter/adapter.log 日志文件，手动在搜索系统数据库新增一条记录，看是否会打印如下日志，即有 2 条记录，一条 INFO，一条 DEBUG，则表示配置成功。

如何设计百万级商品数据实时同步的秒级搜索系统？

canaladapter 日志

至此，数据 ETL 阶段搭建完成，数据可从两个不同的 MySQL8 数据库，实时同步到搜索服务的 MySQL 数据库。

实现数据多表关联、父子文档映射

①配置第二个 Canal 的 canaladapter

进入 canaladapter/conf 目录，编辑 application.yml 文件，主要配置消费 Kafka、搜索系统数据库，和 ES 连接信息。

如下所示：

如何设计百万级商品数据实时同步的秒级搜索系统？

canaladapter MQ 及 MySQL 配置

如何设计百万级商品数据实时同步的秒级搜索系统？

canaladapter ES 配置

②配置多表关联

进入 canaladapter/conf/es 目录，vim mytest_user.yml，编辑多表关联配置：

如何设计百万级商品数据实时同步的秒级搜索系统？

多表关联配置

注意，sql支持多表关联自由组合, 但是有一定的限制：

主表不能为子查询语句。
只能使用 left outer join 即最左表一定要是主表。
关联从表如果是子查询不能有多张表。
主 sql 中不能有 where 查询条件(从表子查询中可以有 where 条件但是不推荐, 可能会造成数据同步的不一致，比如修改了 where 条件中的字段内容)。
关联条件只允许主外键的'='操作不能出现其他常量判断比如：on a.role_id=b.id and b.statues=1。
关联条件必须要有一个字段出现在主查询语句中比如：on a.role_id=b.id 其中的 a.role_id 或者 b.id 必须出现在主 select 语句中。
ElasticSearch 的 mapping 属性与 sql 的查询值将一一对应(不支持 select *)。
比如：select a.id as _id，a.name，a.email as _email from user，其中 name 将映射到 es mapping 的 name field，_email 将映射到 mapping 的 _email field，这里以别名(如果有别名)作为最终的映射字段。这里的 _id 可以填写到配置文件的 _id: _id 映射。

③配置父子文档

以官方的 biz_order.yml 为例，vim biz_order.yml，配置父子文档映射：

如何设计百万级商品数据实时同步的秒级搜索系统？

配置父子文档映射

④在 ElasticSearch6 中，建立 index 和父子文档映射关系

进入 Kibana 页面，点击 Dev Tools，执行如下命令，即可建立索引及父子文档映射：

如何设计百万级商品数据实时同步的秒级搜索系统？

建立 index 和父子文档映射

其中，ES6 和 Kibana 的安装，在此无特别配置，不做赘述。

⑤启动 canal adapter

进入 canaladapter/bin 目录，执行 ./startup.sh，启动 canal adapter，观察 logs/adapter/adapter.log 日志文件，手动在搜索系统数据库新增一条记录，看是否会打印如下日志，如打印则表示配置成功。

如何设计百万级商品数据实时同步的秒级搜索系统？

正确配置 adapter 日志示例

运行结果

现在，我们可以通过 Kibana 来执行 DSL 语句来查询看看。

我们事先已在商家系统中增加了一个“肯德基”商店，然后在商品系统中添加了“西红柿”和“新鲜西红柿”2 个商品，并将商品关联到“肯德基”上。

接着我们查询“肯德基”或者“西红柿”，得到以下是查询的结果(去除了 ES 默认字段)：

如何设计百万级商品数据实时同步的秒级搜索系统？

通过 DSL 查询的结果

由图可见，我们可以通过商家名查询商品，也可通过商品名查询商店和商品，并且 Canal 支持数据的实时增删改，所以 ES 的数据也会与商家系统和商品系统保持一致，同时数据结构包含商家及对应的商品，满足业务需求。

总结

至此，基于 Canal、Kafka、MySQL8、ElasticSearch6 技术的商家商品搜索系统基础框架搭建完成。

我们采用 canal deployer 实时读取商家、商品系统的 MySQL 数据库 Binlog，并发送至 Kafka。

接着由 canal adapter 消费 Kafka，并将 binlog json 数据进行多表关联、父子文档映射，最后存储到 ES6 中，供上层搜索服务调用。

大数据实时数据库实时系统 text-align font-size

Kingonion

0 关注 2 粉丝 0 动态

相关推荐

万亿数据下的多维实时分析系统，如何做到亚秒级响应

当业务发展到一定规模，实时数据仓库是一个必要的基础服务。从数据驱动方面考虑，多维实时数据分析系统的重要性也不言而喻。但是当数据量巨大的情况下，拿腾讯看点来说，一天上报的数据量达到万亿级的规模，要实现极低延迟的实时计算和亚秒级的多维实时查询是有技术挑战的。本

数据分析amp挖掘 2020-10-22

vue+echarts+datav大屏数据展示及实现中国地图省市县下钻功能

随着前端技术的飞速发展，大数据时代的来临，我们在开发项目时越来越多的客户会要求我们做一个数据展示的大屏，可以直观的展示用户想要的数据，同时炫酷的界面也会深受客户的喜欢。大屏展示其实就是一堆的图表能够让人一目了然地看到该系统下的一些基本数据信息的汇总，也会有

KANSYOUKYOU 2020-11-16

13张IT架构图！从数字化转型，到数据架构

今天给大家上13个架构图，不说一些文字。我一直觉得，从架构图上可以学到很多东西，这相比于文字更能理解，而且很多人在做事的时候，是想不清楚具体要怎么做的，都是一开始直接上手，然后后面也不知道怎么改。这篇文章，是我在读了2本书之后，哪2本书呢？是《IT结构治理

evolone 2020-10-29

一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

今天小编给大家详细的讲解一下Scrapy爬虫框架，希望对大家的学习有帮助。Scrapy是一个使用Python编程语言编写的爬虫框架，任何人都可以根据自己的需求进行修改，并且使用起来非常的方便。它可以应用在数据采集、数据挖掘、网络异常用户检测、存储数据等方面

CycloneKid 2020-10-27

docker容器与宿主机的数据交互方式总结

在生产环境中使用 Docker ，往往需要对数据进行持久化，或者需要在多个容器之间进行数据共享，这必然涉及容器的数据管理操作。docker cp :用于容器与主机之间的数据拷贝。当删除Docker容器，并通过该镜像重新启动时，之前的更改将会丢失。在Dock

yangkang 2020-11-09

分布式文档存储数据库之MongoDB备份与恢复的实践详解

　　为什么要备份？　　备份的目的是对数据做冗余的一种方式，它能够让我们在某种情况下保证最少数据的丢失；之前我们对mongodb做副本集也是对数据做冗余，但是这种在副本集上做数据冗余仅仅是针对系统故障或服务异常等一些非人为的故障发生时，保证数据服务的可用性；

lbyd0 2020-11-17

分布式文档存储数据库之MongoDB分片集群的问题

　　1、什么是分片？比如用户要查询年龄大于30的用户，该怎么查询呢？而年龄大于30的用户的数据，可能server1上有一部分数据，server2上有部分数据，我们怎么才能够把所有满足条件的数据全部查询到呢？

sushuanglei 2020-11-12

详解Vue数据驱动原理

Vue区别于传统的JS库，例如JQuery，其中一个最大的特点就是不用手动去操作DOM，只需要对数据进行变更之后，视图也会随之更新。比如你想修改div#app里的内容:. 在代码层面上的最大区别就是，JQuery直接对DOM进行了操作，而Vue则对数据进行

85477104 2020-11-17

THINKPHP5分页数据对象处理过程解析

在用到THINKPHP5的分页的时候，我们可以发现获取的数据是对象，如果我们要对数据进行循环增加数据就实现不了。V5.0.9版本开始支持分页类后数据直接each遍历处理，方便修改分页后的数据，而不是只能通过模型的获取器来补充字段。

wushengyong 2020-10-28

需要知识的后深度学习时代，如何高效自动构建知识图谱

前沿的知识图谱自动构建技术有哪些？这篇文章将逐一解答这些问题。二者展示的信息量是差不多的，但右边这种看起来更加直观。而且，随着文本篇幅的增长，这种优势会体现得更加明显。其中，图的节点代表现实世界中存在的“实体”，图的边则代表实体之间的“关系”。基于知识图谱

lizhengjava 2020-11-13

人工智能技术如何落地交通出行？

在城市交通领域，有AI红绿灯控制，街道交通智能监测、智能公交车站，以及智能高速，这些领域都已经渗透了人工智能。围绕自动驾驶和车路协同也已经在全国多个地区进入商用测试阶段。那么日常还有哪些出行场景是应用到了AI技术的呢?大大降低了人工运营维护成本，人工审核降

星月情缘 2020-11-13

将云技术带入数据中心-走向数据驱动型业务的旅程

COVID-19产生的大量数据正在为企业创造新的增长机会，但拥有合适的基础设施对于有效应对这场数据风暴至关重要。Gartner最近警告说：“数据和分析领导者必须为多云和跨云部署的复杂性做好准备，以避免潜在的性能问题、计划外的成本超支和集成工作中的困难”。负

huangxiaoyun00 2020-11-13

联想持续发力智能物联，构建新基建时代下的行业新引擎

联想Tech World 2020创新科技大会于今日开幕。

zhoushuntian 2020-11-09

数据科学面试中应了解的十种机器学习概念

如您本文转载自公众号“读芯术”。如您所知，数据科学和机器学习必须提供无穷无尽的信息和知识。话虽如此，大多数公司都只测试少数核心思想。这是因为这十个概念是更复杂的思想和概念的基础。您可能想知道为什么我什至不愿意将其放入，因为它是如此的基础。换句话说，更加重视

luyong0 2020-11-08

Forrester发布全栈公有云开发平台报告，腾讯云再次入选领导者象限

今日获悉，国际领先行业咨询机构Forrester发布《2020年Q4中国全栈公有云开发平台Wave报告》显示，腾讯云再次入选公有云开发平台领导者象限。在2018年同主题报告中，腾讯云也曾入选。本次报告通过33项评估标准，针对中国市场最具代表性的12个厂商进

腾讯soso团队 2020-11-06

雾计算在物联网中的应用

雾计算是指一种分散的计算结构。资源被放置在数据源和云之间的逻辑位置。雾计算的优点之一是可以在同一时间上维持多用户连接的状态。本质上，它提供了与基于云的解决方案相同的网络和服务，但是它增加了分散网络的安全性。随着物联网的发展，越来越多的设备被添加到网络中。据

Apsaravod 2020-11-05

AI格局正在从“数据”转变为“知识”

半个多世纪以前就引发了人工智能革命。我们看到的最常见的AI业务策略是围绕数据构建的。我们认为专有数据是AI公司目前很具战略意义的护城河，但在未来几年中，专有数据将不再是一种独特的资产，从而使专有数据差异化的可持续性降低。因此，我们希望重点从基于数据的AI策

PeterChangyb 2020-11-05

SAP AMDP介绍 - ABAP托管的HANA数据库过程

最近Jerry的处境可以用本世纪初，八零后刚上大学时校园内风靡的一款FPS游戏名称来形容: 《半条命》. 为了避免让汪子熙这个公众号成为神经外科前中颅底亚专业医学知识的普及号，咱们还是继续聊SAP技术吧。随着ABAP 7.40 SP05的发布，SAP AB

gaobudong 2020-11-04

数据骗子无处不在，教你拆穿所谓“万金油”

数据分析师、机器学习/人工智能工程师、统计学家，这样的头衔是不是听起来很高大上?但小心别被骗了!高薪诱惑之下，不少数据骗子也隐藏在其中，这些骗子毁了遵纪守法的数据专业人士的好名声。第一点线索就是，他们无法理解分析学和统计学是两个截然不同的学科。这样的p值没

wwwjun 2020-11-02

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中的数据偏差是一种错误，其中数据集的某些元素的权重和/或表示程度高于其他元素。偏置数据集不能准确表示模型的用例，从而导致结果偏斜、精度低和分析错误。通常，机器学习项目的培训数据必须代表现实世界。数据偏差可能发生在一系列领域，从人类报告和选择偏差到算

gyunwh 2020-11-02

Kingonion

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号