数据质量

数据质量:
1/ 数据质量控制环节
2/ 元数据管理

数据质量包括:
数据的完整性
数据自成体系、无数据缺失(包括实体记录缺失、字段信息缺失)
数据一致性:
在整个数仓中,同一数据各主题、层次数据一致
正确性:
在数仓各部分、确保数据不失真
及时性:
整个数仓处理过程中,数据及时到位、及时反馈

数据质量的控制不只是在数据进入数仓后才开始,而是渗透到数据流通的各个环节:
数据生产
数据采集与同步
数据模型设计
ETL开发
指标体系
比如:
数据生产环节面临的问题:
1/ 业务侧有独立的设计,数据仓库开发人员不易介入
2/ 一般公司业务现行,数据仓库建设靠后,业务设计的时候没有兼顾数据侧
3/ 传统公司业务较稳定,但互联网公司业务频繁变动,会存在信息不同步或同步不及时
4/ 源侧数据随意变更
解决思路:
1/ 尽可能的向业务侧靠拢,了解公司产品、了解业务侧技术架构,向他们灌输数据思维,强调数据的重要性
2/ 流程方面,推动或约束产品经理、研发设计人员同步产品动态信息,参与产品需求评审、技术方案评审,甚至出一些表、接口设计规范,形成上线通报机制
3/ 技术方面,无论多么完善的流程,都会打折落地,所以要从技术角度去控制,比如利用技术手段捕获上线结构变化来避免信息不同步

相关推荐