马蜂窝大数据架构详解：小白都能懂的数据仓库与数据中台

ruancw

2019-12-17

关注关注

一、马蜂窝数据仓库与数据中台

最近几年，数据中台概念的热度一直不减。2018 年起，马蜂窝也开始了自己的数据中台探索之路。

数据中台到底是什么?要不要建?和数据仓库有什么本质的区别?相信很多企业都在关注这些问题。

我认为数据中台的概念非常接近传统数据仓库+大数据平台的结合体。它是在企业的数据建设经历了数据中心、数据仓库等积累之后，借助平台化的思路，将数据更好地进行整合与统一。

所以，数据中台更多的是体现一种管理思路和架构组织上的变革。在这样的思想下，我们结合自身业务特点建设了马蜂窝的数据中台，核心架构如下：

在中台建设之前，马蜂窝已经建立了自己的大数据平台，并积累了一些通用、组件化的工具，这些可以支撑数据中台的快速搭建。作为中台的另一大核心部分，马蜂窝数据仓库主要承担数据统一化建设的工作，包括统一数据模型，统一指标体系等。下面介绍马蜂窝在数据仓库建设方面的具体实践。

二、数据仓库核心架构

马蜂窝数据仓库遵循标准的三层架构，对数据分层的定位主要采取维度模型设计，不会对数据进行抽象打散处理，更多注重业务过程数据整合。现有数仓主要以离线为主，整体架构如下：

如图所示，共分为 3 层：业务数据层、公共数据层与应用数据层，每层定位、目标以及建设原则各不相同。

三、数据模型设计

3.1 方法选择

数据模型是对现实世界数据特征的抽象，数据模型的设计方法就是对数据进行归纳和概括的方法。目前业界主要的模型设计方法论有两种，一是数据仓库之父 Bill Inmon 提出的范式建模方法，又叫 ER 建模，主张站在企业角度自上而下进行数据模型构建;二是 Ralph Kimball 大师倡导的维度建模方法，主张从业务需求出发自下而上构建数据模型。

大数据环境下，业务系统数据体系庞杂，数据结构多样、变更频繁，并且需要快速响应各种复杂的业务需求，以上两种传统的理论都已无法满足互联网数仓需求。

在此背景下，马蜂窝数据仓库采取了「以需求驱动为主、数据驱动为辅」的混合模型设计方式，来根据不同的数据层次选择模型。

3.2 设计流程

马蜂窝数仓模型设计的整体流程涉及需求调研、模型设计、开发测试、模型上线四个主要环节，且规范设计了每个阶段的输出与输入文档。

3.3 主题分类

基于对目前各个部门和业务系统的梳理，马蜂窝数据仓库共设计了 4 个大数据域(交易、流量、内容、参与人)，细分为 11 个主题：

以马蜂窝订单交易模型的建设为例，基于业务生产总线的设计是常见的模式，即首先调研订单交易的完整过程，定位过程中的关键节点，确认各节点上发生的核心事实信息。模型是数据的载体，我们要做的就是通过模型(或者说模型体系)归纳生产总线中各个节点发生的事实信息。

订单生产总线：

如上图所示，我们需要提炼各节点的核心信息，为了避免遗漏关键信息，一般情况下抽象认为节点的参与人、发生时间、发生事件、发生协议属于节点的核心信息，需要重点获取。以下单节点为例，参与人包括下单用户、服务商家、平台运营人员等;发生时间包括用户的下单时间、商家的确认时间等;发生的事件即用户购买了商品，需要记录围绕这一事件产生的相关信息;发生协议即产生的订单，订单金额、约定内容等都是我们需要记录的协议信息。

在这样的思路下，总线架构可以在模型中不断添加各个节点的核心信息，使模型支撑的应用范围逐步扩展、趋于完善。因此，对业务流程的理解程度将直接影响产出模型的质量。