大数据数据仓库 《大数据之路:阿里巴巴大数据实践》 读书笔记
一、基本概念
1、数据仓库:是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。
其中最核心的是集成。
2、ETL:抽取 转换 加载 把数据从不同的oltp系统中集成到数据仓库中的过程
3、数据模型:仓库里的数据怎么组织?(数据结构)目前业界的事实标准是 维度模型
4、大数据:大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
简单说:能够支持全量数据分析的一系列技术
二、阿里的大数据体系架构
1、采集和同步
2、数据仓库(onedata)
3、数据服务(简单 实时 推送) 解决怎么提供成果的问题
4、应用
三、数据服务的架构变化的过程:
1、一个功能一个接口
2、多个功能合并到一个接口(openapi)
3、统一使用sql来执行(内部有执行引擎)
4、支持个性化、实时、定时等别的需求
四、大数据环境下的数据仓库
1、数据仓库仍然是使用数据的前提
2、对比传统ETL,大数据环境下的技术 包括 map reduce, spark,storm,hbase,hive等,个人理解:数据仓库是目标,
大数据是技术实现方式
五、传统BI与大数据下的数据仓库对比
1、BI数据一般是线上数据,结构化,主要作离线统计分析
2、大数据仓库:有复杂的计算和调度,同时支持离线和实时操作,在ETL和分析时使用的都是分布式的技术
六、大数据仓库环境下的职位建议
1、ETL工程师(写hive sql、mapreduce 任务、流计算任务 等), 主要是执行层面
2、数据建模(建立数据仓库),主要是设计层面
3、数据分析、数据挖掘、机器学习(在仓库上面写算法、做模型)
4、大数据平台技术工程师、架构师(搭建和运维整套的大数据平台)