数据仓库之 ETL漫谈

crazyhulu

2012-08-29

关注关注

ETL，Extraction-Transformation-Loading的缩写，中文名称为数据抽取、转换和加载。

大多数据仓库的数据架构可以概括为：

数据源-->ODS(操作型数据存储)-->DW-->DM(data mart)

ETL贯穿其各个环节。

一、数据抽取：

可以理解为是把源数据的数据抽取到ODS或者DW中。

1. 源数据类型：

关系型数据库，如Oracle,Mysql,Sqlserver等;

文本文件，如用户浏览网站产生的日志文件，业务系统以文件形式提供的数据等；

其他外部数据，如手工录入的数据等；

2. 抽取的频率：

大多是每天抽取一次，也可以根据业务需求每小时甚至每分钟抽取，当然得考虑源数据库系统能否承受；

3. 抽取策略：

个人感觉这是数据抽取中最重要的部分，可分为全量抽取和增量抽取。

全量抽取适用于那些数据量比较小，并且不容易判断其数据发生改变的诸如关系表，维度表，配置表等；

增量抽取，一般是由于数据量大，不可能采用全量抽取，或者为了节省抽取时间而采用的抽取策略；

如何判断增量，这是增量抽取中最难的部分，一般包括以下几种情况：

a) 通过时间标识字段抽取增量；源数据表中有明确的可以标识当天数据的字段的流水表，

如createtime，updatetime等；

b) 根据上次抽取结束时候记录的自增长ID来抽取增量；无createtime,但有自增长类型字段的流水表，

如自增长的ID，抽取完之后记录下最大的ID，

下次抽取可根据上次记录的ID来抽取；

c) 通过分析数据库日志获取增量数据，无时间标识字段，无自增长ID的关系型数据库中的表；

d) 通过与前一天数据的Hash比较，比较出发生变化的数据，这种策略比较复杂，在这里描述一下，

比如一张会员表，它的主键是memberID,而会员的状态是有可能每天都更新的，

我们在第一次抽取之后，生成一张备用表A，包含两个字段，第一个是memberID,

第二个是除了memberID之外其他所有字段拼接起来，再做个Hash生成的字段，

在下一次抽取的时候，将源表同样的处理,生成表B,将B和A左关联，Hash字段不相等的

为发生变化的记录，另外还有一部分新增的记录，

根据这两部分记录的memberID去源表中抽取对应的记录；

e) 由源系统主动推送增量数据；例如订单表，交易表，

有些业务系统在设计的时候，当一个订单状态发生变化的时候，是去源表中做update，

而我们在数据仓库中需要把一个订单的所有状态都记录下来，

这时候就需要在源系统上做文章，数据库触发器一般不可取。我能想到的方法是在业务系统上做些变动，

当订单状态发生变化时候，记一张流水表，可以是写进数据库，也可以是记录日志文件。

当然肯定还有其他抽取策略，至于采取哪种策略，需要考虑源数据系统情况，

抽取过来的数据在数据仓库中的存储和处理逻辑，抽取的时间窗口等等因素。

二、数据清洗：

顾名思义，就是把不需要的，和不符合规范的数据进行处理。数据清洗最好放在抽取的环节进行，

这样可以节约后续的计算和存储成本；

当源数据为数据库时候，其他抽取数据的SQL中就可以进行很多数据清洗的工作了。

数据清洗主要包括以下几个方面：

1. 空值处理；根据业务需要，可以将空值替换为特定的值或者直接过滤掉；

2. 验证数据正确性；主要是把不符合业务含义的数据做一处理，比如，把一个表示数量的字段中的字符串

替换为0，把一个日期字段的非日期字符串过滤掉等等；

3. 规范数据格式；比如，把所有的日期都格式化成YYYY-MM-DD的格式等；

4. 数据转码；把一个源数据中用编码表示的字段，通过关联编码表，转换成代表其真实意义的值等等；

5. 数据标准，统一；比如在源数据中表示男女的方式有很多种，在抽取的时候，直接根据模型中定义的值做转化，

统一表示男女；

6. 其他业务规则定义的数据清洗。。。

三、数据转换和加载：

很多人理解的ETL是在经过前两个部分之后，加载到数据仓库的数据库中就完事了。

数据转换和加载不仅仅是在源数据-->ODS这一步，ODS-->DW, DW-->DM包含更为重要和复杂的ETL过程。

1. 什么是ODS？

ODS（Operational Data Store）是数据仓库体系结构中的一个可选部分，

ODS具备数据仓库的部分特征和OLTP系统的部分特征，

它是“面向主题的、集成的、当前或接近当前的、不断变化的”数据。---摘自百度百科

其实大多时候，ODS只是充当了一个数据临时存储，数据缓冲的角色。一般来说，

数据由源数据加载到ODS之后，会保留一段时间，当后面的数据处理逻辑有问题，需要重新计算的时候，

可以直接从ODS这一步获取，而不用再从源数据再抽取一次，减少对源系统的压力。

另外，ODS还会直接给DM或者前端报表提供数据，比如一些维表或者不需要经过计算和处理的数据；

还有，ODS会完成一些其他事情，比如，存储一些明细数据以备不时之需等等；

2. 数据转换(刷新)：

数据转换，更多的人把它叫做数据刷新，就是用ODS中的增量或者全量数据来刷新DW中的表。

DW中的表基本都是按照事先设计好的模型创建的，如事实表，维度表，汇总表等，

每天都需要把新的数据更新到这些表中。

更新这些表的过程(程序)都是刚开始的时候开发好的，每天只需要传一些参数,如日期，来运行这些程序即可。

3. 数据加载：

个人认为，每insert数据到一张表，都可以称为数据加载，至于是delete+insert、truncate+insert、

还是merge，这个是由业务规则决定的，这些操作也都是嵌入到数据抽取、转换的程序中的。

四、ETL工具：

在传统行业的数据仓库项目中，大多会采用一些现成的ETL工具，如Informatica、Datastage、微软SSIS等。

这三种工具我都使用过，优点有：图形界面，开发简单，数据流向清晰；缺点：局限性，不够灵活，

处理大数据量比较吃力，查错困难，昂贵的费用；

选择ETL工具需要充分考虑源系统和数据仓库的环境，当然还有成本，如果源数据系统和数据仓库都采用

ORACLE，那么我觉得所有的ETL，都可以用存储过程来完成了。。

在大一点的互联网公司，由于数据量大，需求特殊，ETL工具大多为自己开发，

或者在开源工具上再进行一些二次开发，在实际工作中，

一个存储过程，一个shell/perl脚本，一个java程序等等，都可以作为ETL工具。

五、ETL过程中的元数据：

试想一下，你作为一个新人接手别人的工作，没有文档，程序没有注释，

数据库中的表和字段也没有任何comment，你是不是会骂娘了？

业务系统发生改变，删除了一个字段，需要数据仓库也做出相应调整的时候，

你如何知道改这个字段会对哪些程序产生影响？

。。。。

源系统表的字段及其含义，源系统数据库的IP、接口人，数据仓库表的字段及其含义，

源表和目标表的对应关系，一个任务对应的源表和目标表，任务之间的依赖关系，

任务每次执行情况等等等等，这些元数据如果都能严格的管控起来，上面的问题肯定不会是问题了。。。

数据仓库 etl 大数据数据抽取

crazyhulu

0 关注 0 粉丝 0 动态

关注关注

ETL基础知识有哪些？3分钟让你轻松搞定

随着企业的发展，各业务线、产品线、部门都会承建各种信息化系统方便开展自己的业务。随着信息化建设的不断深入，由于业务系统之间各自为政、相互独立造成的数据孤岛”现象尤为普遍，业务不集成、流程不互通、数据不共享。这给企业进行数据的分析利用、报表开发、分析挖掘等带

wujun 2020-08-03

数据分析你需要知道的操作：ETL和ELT

如果您接触过数据仓库, 您可能会使用 ETL 或 ELT 将您的数据从不同的来源提取到数据仓库中。这些是移动数据或集成数据的常用方法, 以便您可以关联来自不同来源的信息, 将数据安全地存储在一个位置, 并使公司的成员能够从不同业务部门查看综合数据。ET

天涯莺歌 2020-03-08

数据仓库ETL之数据交换

从1990年数据仓库之父比尔·恩门提出数据仓库的概念，ETL作为数据仓库的核心组件，在传统的数据仓库中是服务于数据采集，数据处理，大数据时代来临，对ETL的理解也由升级到这个层面。如果你也考虑建设企业级数据仓库可以作为参考。建设数据仓库的模式有由上而下以及

KANSYOUKYOU 2020-01-29

数据仓库建模与ETL的实践技巧

　　数据仓库是为了便于多维分析和多角度展现而将数据按特定的模式进行存储所建立起来的关系型DataBase，它的数据基于OLTP源系统。数据仓库中的数据是细节的、集成的、面向主题的，以OLAP 系统的分析需求为目的。　　数据仓库的架构模型包括了星型架构与雪花

xinxuan 2017-09-01

大数据、数据仓库和ETL

大量原来线下的业务电子化之后，产生了很多的数据，这些数据除了能够支撑业务正常运转，也能够使分析人员针对整个企业的运转情况进行分析。比如，本周与上周相比销量增加还是减少了？哪些供应商提供的商品，成本低、质量好、及时供货、客户比较喜欢？上面这些问题分别涉及销

黄河敏捷开发 2018-07-27

企业如何融合人性以充分利用云计算的优势

对于企图走出舒适区的企业而言，人性是最大的阻碍。为开始一项新计划而需要的最初痛苦的精神障碍，使许多企业无论其规模有多大，都无法获得最终可能带来的收益。到目前为止，采用基于云计算的数据仓库策略的商业案例非常引人注目。但是，尽管人工编程可以帮助企业并成功迁移到

jasonchen 2020-09-07

奈学：数据湖和数据仓库的区别有哪些？

数据仓库就是数据通常从事务系统中提取，在将数据加载到数据仓库之前，会对数据进行清理与转换。而数据仓库则是捕获结构化数据并将其按模式组织。在数据仓库中存储数据之前定义schema，这需要你清理和规范化数据，这意味着schema的灵活性要低不少。

chognzhihongseu 2020-06-28

数据仓库 ODS原始数据层操作

①ODS层存放的是原始数据，因此只需要一个字段就行。②ODS层的数据来源于HDFS，里面存储的文件带有压缩，因此需要指明相应的压缩方式。③在多人操作一张Hive表时，最好建立外部表，防止删表时将其中的数据也删掉了。2 编写将数据导入上述表中的脚本。④hiv

cyydjt 2020-06-25

数智时代基石，阿里云推出新一代云原生数据仓库与数据湖

6月9日，在2020阿里云峰会上，阿里巴巴副总裁、阿里云计算平台事业部高级研究员贾扬清宣布推出新一代云原生数据仓库和数据湖解决方案。基于创新的技术架构，新一代云原生数据仓库可支持PB级数据关联分析和实时查询，实现离线、实时、分析、服务的四位一体。同时推出

meiseeny 2020-06-11

数据仓库物理模型建表工具

为了将数据仓库设计过程中excel中设计的物理模型高效转换成标准的Hive建表语句，我用 python开发了如下的工具。-- V1.0 guominghuang 2020-5-15 新增上线。sql =

Laxcus大数据技术 2020-05-30

Hive -- 原理篇

　　一个简单的理解：把SQL的一些操作应用在hadoop的HDFS上面。　　数据库里面有个范式的概念，也就是说数据库中的数据是没有冗余的，用于企业的一些应用。数据仓库是存在冗余数据的，主要用来对大规模的数据及进行数据分析，用户数据挖掘、数据分析。

SignalDu 2020-05-28

数据仓库实践过程中的规范

在实践数据仓库的建设中，越发感受到规范的重要性，总结出以下几点。

lanmantech 2020-05-28

与“数据中台”，来一次亲密接触

数据中台是 2015 年阿里提出来的双中台的概念其中的一个重要组成，阿里作为先驱者，提供了数据中台架构、以及非常多的建设思路供大家参考，但是一千人眼里有一千个数据中台，到底什么是数据中台?我个人认为数据中台的核心组成，以及一些技术选型参考。其中 Hado

张小涛涛 2020-05-06

数据仓库架构

一个数据仓库是一个统一的架构下组织不同数据源的异类集合。有两种构建数据仓库的方法：解释自上而下的方法和自下而上的方法。外部源–外部源是从中收集数据的源，与数据类型无关。为此，建议使用ETL工具。此外，该模型被认为是业务变更的最强模型。设计的成本，时间及其维

弱思 2020-04-27

AI 时代，还不了解大数据？

如果要问最近几年，IT行业哪个技术方向最火?一定属于ABC，即AI + Big Data + Cloud，也就是人工智能、大数据和云计算。在这种趋势下，大数据技术越来越重要。相比较AI和云计算，大数据的技术门槛更低一些，而且跟业务的相关性更大。我个人感觉再

tutubuchicao 2020-04-20

内附PPT下载 | 性能为MySQL10倍！阿里云重磅推出云原生数据仓库AnalyticDB基础版

日前，阿里云正式发布云原生数据仓库AnalyticDB基础版，极大降低了用户构建数据仓库的门槛，每月可低至860元。高度兼容MySQL，极低的使用成本和极高的性能，使中小企业也可以轻松的搭建一套实时数据仓库，实现企业数据价值在线化。

weiguoxin 2020-04-10

什么是LakeHouse?

在Databricks的过去几年中，我们看到了一种新的数据管理范式，该范式出现在许多客户和案例中：LakeHouse。在这篇文章中，我们将描述这种新范式及其相对于先前方案的优势。数据仓库不适用于许多此类场景，并且也不是最具成本效益的。由于这些原因，数据湖之

swazerz 2020-02-03

自建Hive数据仓库跨版本迁移到阿里云E-MapReduce

最佳实践概述应用场景客户在IDC或者公有云环境自建Hadoop集群，数据集中保存在HDFS文件系统，同时借助Hive进行常见的ETL任务。注册阿里云账号，并完成实名认证。阿里云账户余额大于100元。您可以登录阿里云控制台，并前往账户总览页面查看账户余额。开

lichunan 2020-01-09

数据仓库四

数据量和存储空间允许，则用细粒度；当不允许，则可以选择双粒度，访问频繁的做细粒度。访问不频繁的作二次加工，用粗粒度

xiyouiOS 2014-06-12

数据仓库一

操作型 - 原子/数据仓库 - 数据集市 - 个体。CLDS 是DDS系统，数据驱动开发，由数据开始做集成，再进行数据检验和分析。SDLC 是传统的需求驱动开发。对硬件使用比较稳定，有波峰波谷。数据仓库则有时间上的间断，利用或不利用

xiyouiOS 2014-06-12

安科网

数据仓库之 ETL漫谈

crazyhulu

crazyhulu

相关推荐

ETL基础知识有哪些？3分钟让你轻松搞定

数据分析你需要知道的操作：ETL和ELT

数据仓库ETL之数据交换

数据仓库建模与ETL的实践技巧

大数据、数据仓库和ETL

企业如何融合人性以充分利用云计算的优势

奈学：数据湖和数据仓库的区别有哪些？

数据仓库 ODS原始数据层操作

数智时代基石，阿里云推出新一代云原生数据仓库与数据湖

数据仓库物理模型建表工具

Hive -- 原理篇

数据仓库实践过程中的规范

与“数据中台”，来一次亲密接触

数据仓库架构

AI 时代，还不了解大数据？

内附PPT下载 | 性能为MySQL10倍！阿里云重磅推出云原生数据仓库AnalyticDB基础版

什么是LakeHouse?

自建Hive数据仓库跨版本迁移到阿里云E-MapReduce

数据仓库四

数据仓库一

crazyhulu