大众点评数据平台架构变迁

yangyong

2015-11-09

关注关注

最近和其他公司的同学对数据平台的发展题做了一些沟通，发现各自遇到的问题都类似，架构的变迁也有一定的相似性。

以下从 数据&架构&应用的角度对2012.07-2014.12期间大众点评数据平台的架构变迁做一个概括性的总结，希望对还处在数据平台发展初期的同学有一些帮助，欢迎线下沟通。

1、1.0（2012.07）

1.1 数据：

1. 以支持用户报表需求为主

2. 初步沉淀出了一些底层模型

3. 模型计算程序以python为主

1.2 架构：

1. 存储和计算都在GreenPlum

2. GreenPlum采用双集群热备，一大一小，部分关键报表数据同时在两个集群存储、计算。

3.传输：公司的DBA同学将数据从Mysql、SQLServer拉出来，落地成文件。传输程序每天凌晨解析落地的文件，然后将数据load到greenplum

4.调度：使用Quartz框架，依赖关系存放到表中，将依赖检查做成一个脚本，下游job 调用方法check上游任务是否完成

5.监控：用户程序自主判断异常，邮件、手机报警。

1.3 数据应用：

1.报表数据以邮件的形式发送给用户

2.用户可以使用自定义sql的web查询工具主动查询数据

2、2.0（2013.04）

大众点评数据平台架构变迁

2.1 数据：

1. 有了明确的模型分层：

　a) ODS:存放从原系统采集来的原始数据

b) DW:保存经过清洗，转换和重新组织的历史数据，数据将保留较长时间,满足系统最细粒度的查询需要

c) DM: 数据集市。基于部门或某一特定分析主题需要

d) RPT:直接面向用户的报表

2. 形成了流量、团购、信息三大基础模型及构建于三大基础模型之上的数据集市

3. 基于volocity开发了canaan计算框架。

4. 开发了一些自定义的UDF

2.2 架构：

1. 存储和计算都基于HIVE

2. GREENPLUM作为HIVE的“cache”存在，供用户做一些小数据的快查询，报表存储。

3. 调度：和canaan框架进行整合，支持用户快速新增任务，并自动导入任务依赖。

4. 主数据：保存了数据仓库元数据信息，供用户查询和系统内部各个模块交互。

5. ACL：构建了数据仓库数据访问权限控制，包括用户权限申请、审批者审批、数据赋权等。

6. 传输：

a)参考阿里DataX的设计，实现了点评的异构数据离线传输工具wormhole

b)可视化界面，用户通过界面操作，方便的将数据导入导出数据

c)和调度、主数据等系统打通

7. 监控：由于任务数量增长较快（2000+），运维已经是个问题此外，因此，我们花了较大精力做了可视化的工作：

大众点评数据平台架构变迁

2.3 数据应用

1. 运营工具：用户自定义SQL，存储基于HIVE

2. 指标（KPI）：用户自定义SQL，计算基于HIVE，结果放到GREENPLUM中，用户可以根据指标通过时间拼接成报表

3. HIVE WEB：非常便捷的HIVE WEB工具，可用性可以甩hive原生的web界面HWI几条街了

3、3.0（2013.12）

大众点评数据平台架构变迁

3.1 数据：

1. 有了明确的上层数据集市，各层数据集市打通，例如团购数据和流量数据打通

2. 形成了用户集市、商户集市两大主题

3. 和算法团队合作建设推荐系统

4. 提供框架和工具支持，引入外部数据开发者

3.2 架构：

1. 引入mysql、hbase，支持线上服务

2. 数据访问接口支持：API、Query Engine、RPC Service

3. 引入shark支持临时查询，出于稳定性考虑，牺牲性能，shark/spark集群和hadoop/hive集群物理隔离

4. 数据质量：用户指定以条件，对计算结果做检查

3.3 数据产品：

支持DashBoard

4、4.0（2014.12）

大众点评数据平台架构变迁

4.1 数据：

1. 持续扩充/完善数据模型
2. 数据规范化，主要包括：APP日志、渠道
3. 完善数据开发平台，其他部门数据开发者100+

4.2 架构：

1. 建设Redis Cluster，支持实时推荐、用户画像等服务
2. Hadoop升级到YARN
3. 引入Storm支持实时计算
4. 推出类Kafka的分布式消息系统，结合日志框架，支持日志数据的快速/低成本接入
5. 建设元数据中心
大众点评数据平台架构变迁

4.3 数据产品：

推出专有数据产品，包括：运营效果评估、流量分析产品等。

Refer：

[1] 大众点评数据平台架构变迁

http://dwz.cn/28oSBm

[2] 饿了么数据仓库治理及数据使用

http://www.infoq.com/cn/presentations/data-warehouse-management-and-data-use-of-eleme

转自：http://my.oschina.net/leejun2005

大数据架构

yangyong

0 关注 0 粉丝 0 动态

关注关注

13张IT架构图！从数字化转型，到数据架构

今天给大家上13个架构图，不说一些文字。我一直觉得，从架构图上可以学到很多东西，这相比于文字更能理解，而且很多人在做事的时候，是想不清楚具体要怎么做的，都是一开始直接上手，然后后面也不知道怎么改。这篇文章，是我在读了2本书之后，哪2本书呢？是《IT结构治理

evolone 14评论 2020-10-29

docker容器与宿主机的数据交互方式总结

在生产环境中使用 Docker ，往往需要对数据进行持久化，或者需要在多个容器之间进行数据共享，这必然涉及容器的数据管理操作。docker cp :用于容器与主机之间的数据拷贝。当删除Docker容器，并通过该镜像重新启动时，之前的更改将会丢失。在Dock

yangkang 2020-11-09

分布式文档存储数据库之MongoDB备份与恢复的实践详解

　　为什么要备份？　　备份的目的是对数据做冗余的一种方式，它能够让我们在某种情况下保证最少数据的丢失；之前我们对mongodb做副本集也是对数据做冗余，但是这种在副本集上做数据冗余仅仅是针对系统故障或服务异常等一些非人为的故障发生时，保证数据服务的可用性；

lbyd0 2020-11-17

分布式文档存储数据库之MongoDB分片集群的问题

　　1、什么是分片？比如用户要查询年龄大于30的用户，该怎么查询呢？而年龄大于30的用户的数据，可能server1上有一部分数据，server2上有部分数据，我们怎么才能够把所有满足条件的数据全部查询到呢？

sushuanglei 5评论 2020-11-12

详解Vue数据驱动原理

Vue区别于传统的JS库，例如JQuery，其中一个最大的特点就是不用手动去操作DOM，只需要对数据进行变更之后，视图也会随之更新。比如你想修改div#app里的内容:. 在代码层面上的最大区别就是，JQuery直接对DOM进行了操作，而Vue则对数据进行

85477104 13评论 2020-11-17

vue+echarts+datav大屏数据展示及实现中国地图省市县下钻功能

随着前端技术的飞速发展，大数据时代的来临，我们在开发项目时越来越多的客户会要求我们做一个数据展示的大屏，可以直观的展示用户想要的数据，同时炫酷的界面也会深受客户的喜欢。大屏展示其实就是一堆的图表能够让人一目了然地看到该系统下的一些基本数据信息的汇总，也会有

KANSYOUKYOU 2020-11-16

THINKPHP5分页数据对象处理过程解析

在用到THINKPHP5的分页的时候，我们可以发现获取的数据是对象，如果我们要对数据进行循环增加数据就实现不了。V5.0.9版本开始支持分页类后数据直接each遍历处理，方便修改分页后的数据，而不是只能通过模型的获取器来补充字段。

wushengyong 2020-10-28

需要知识的后深度学习时代，如何高效自动构建知识图谱

前沿的知识图谱自动构建技术有哪些？这篇文章将逐一解答这些问题。二者展示的信息量是差不多的，但右边这种看起来更加直观。而且，随着文本篇幅的增长，这种优势会体现得更加明显。其中，图的节点代表现实世界中存在的“实体”，图的边则代表实体之间的“关系”。基于知识图谱

lizhengjava 12评论 2020-11-13

人工智能技术如何落地交通出行？

在城市交通领域，有AI红绿灯控制，街道交通智能监测、智能公交车站，以及智能高速，这些领域都已经渗透了人工智能。围绕自动驾驶和车路协同也已经在全国多个地区进入商用测试阶段。那么日常还有哪些出行场景是应用到了AI技术的呢?大大降低了人工运营维护成本，人工审核降

星月情缘 11评论 2020-11-13

将云技术带入数据中心-走向数据驱动型业务的旅程

COVID-19产生的大量数据正在为企业创造新的增长机会，但拥有合适的基础设施对于有效应对这场数据风暴至关重要。Gartner最近警告说：“数据和分析领导者必须为多云和跨云部署的复杂性做好准备，以避免潜在的性能问题、计划外的成本超支和集成工作中的困难”。负

huangxiaoyun00 9评论 2020-11-13

联想持续发力智能物联，构建新基建时代下的行业新引擎

联想Tech World 2020创新科技大会于今日开幕。

zhoushuntian 15评论 2020-11-09

数据科学面试中应了解的十种机器学习概念

如您本文转载自公众号“读芯术”。如您所知，数据科学和机器学习必须提供无穷无尽的信息和知识。话虽如此，大多数公司都只测试少数核心思想。这是因为这十个概念是更复杂的思想和概念的基础。您可能想知道为什么我什至不愿意将其放入，因为它是如此的基础。换句话说，更加重视

luyong0 12评论 2020-11-08

Forrester发布全栈公有云开发平台报告，腾讯云再次入选领导者象限

今日获悉，国际领先行业咨询机构Forrester发布《2020年Q4中国全栈公有云开发平台Wave报告》显示，腾讯云再次入选公有云开发平台领导者象限。在2018年同主题报告中，腾讯云也曾入选。本次报告通过33项评估标准，针对中国市场最具代表性的12个厂商进

腾讯soso团队 2020-11-06

雾计算在物联网中的应用

雾计算是指一种分散的计算结构。资源被放置在数据源和云之间的逻辑位置。雾计算的优点之一是可以在同一时间上维持多用户连接的状态。本质上，它提供了与基于云的解决方案相同的网络和服务，但是它增加了分散网络的安全性。随着物联网的发展，越来越多的设备被添加到网络中。据

Apsaravod 2020-11-05

AI格局正在从“数据”转变为“知识”

半个多世纪以前就引发了人工智能革命。我们看到的最常见的AI业务策略是围绕数据构建的。我们认为专有数据是AI公司目前很具战略意义的护城河，但在未来几年中，专有数据将不再是一种独特的资产，从而使专有数据差异化的可持续性降低。因此，我们希望重点从基于数据的AI策

PeterChangyb 2020-11-05

SAP AMDP介绍 - ABAP托管的HANA数据库过程

最近Jerry的处境可以用本世纪初，八零后刚上大学时校园内风靡的一款FPS游戏名称来形容: 《半条命》. 为了避免让汪子熙这个公众号成为神经外科前中颅底亚专业医学知识的普及号，咱们还是继续聊SAP技术吧。随着ABAP 7.40 SP05的发布，SAP AB

gaobudong 15评论 2020-11-04

数据骗子无处不在，教你拆穿所谓“万金油”

数据分析师、机器学习/人工智能工程师、统计学家，这样的头衔是不是听起来很高大上?但小心别被骗了!高薪诱惑之下，不少数据骗子也隐藏在其中，这些骗子毁了遵纪守法的数据专业人士的好名声。第一点线索就是，他们无法理解分析学和统计学是两个截然不同的学科。这样的p值没

wwwjun 15评论 2020-11-02

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中的数据偏差是一种错误，其中数据集的某些元素的权重和/或表示程度高于其他元素。偏置数据集不能准确表示模型的用例，从而导致结果偏斜、精度低和分析错误。通常，机器学习项目的培训数据必须代表现实世界。数据偏差可能发生在一系列领域，从人类报告和选择偏差到算

gyunwh 2020-11-02

机器学习中处理缺失值的9种方法

它是任何数据科学或机器学习项目的关键。在大多数情况下，当我们从不同的资源收集数据或从某处下载数据时，几乎有95%的可能性我们的数据中包含缺失的值。我们不能对包含缺失值的数据进行分析或训练机器学习模型。这就是为什么我们90%的时间都花在数据预处理上的主要原因

EchoYY 14评论 2020-10-31

人工智能和机器学习如何从物联网数据中提取关键见解

过去几年，围绕物联网的大部分讨论都集中在连网设备本身——它们是什么、有多少以及如何保护它们。虽然所有这些小端点都很重要，但在物联网中更重要的是这些设备所生成的大量数据，以及通过分析可以从中获得的业务见解。这些缺点在物联网环境中更加严重，在物联网环境中，大量

dingyahui 14评论 2020-10-30

大众点评数据平台架构变迁

1、1.0（2012.07）

1.1 数据：

1.2 架构：

1.3 数据应用：

2、2.0（2013.04）

2.1 数据：

2.2 架构：

2.3 数据应用

3、3.0（2013.12）

3.1 数据：

3.2 架构：

3.3 数据产品：

4、4.0（2014.12）

4.1 数据：

4.2 架构：

4.3 数据产品：

Refer：

相关推荐