数据治理中的数据血缘关系是什么？用来解决什么问题

morexyoung

2020-04-22

前言：
数据血缘属于数据治理中的一个概念，是在数据溯源的过程中找到相关数据之间的联系，它是一个逻辑概念。
数据治理里经常提到的一个词就是血缘分析，血缘分析是保证数据融合的一个手段，通过血缘分析实现数据融合处理的可追溯。大数据数据血缘是指数据产生的链路，直白点说，就是我们这个数据是怎么来的，经过了哪些过程和阶段。

数据血缘关系的应用场景是什么：
在数据的处理过程中，从数据源头到最终的数据生成，每个环节都可能会导致我们出现数据质量的问题。比如我们数据源本身数据质量不高，在后续的处理环节中如果没有进行数据质量的检测和处理，那么这个数据信息最终流转到我们的目标表，它的数据质量也是不高的。也有可能在某个环节的数据处理中，我们对数据进行了一些不恰当的处理，导致后续环节的数据质量变得糟糕。因此，对于数据的血缘关系，我们要确保每个环节都要注意数据质量的检测和处理，那么我们后续数据才会有优良的基因，即有很高的数据质量。

举例说明：
现在假设你是一只数据开发工程师，为了满足一次业务需求，，然后为了生成这张表，可能是处于程序逻辑清晰或者性能优化的考虑，你会使用很多份数据表，也会通过 MR、Spark 或者 Hive 来生产很多中间表。
如下图，是你将花费时间来实现的整个数据流。
数据治理中的数据血缘关系是什么？用来解决什么问题
其中 Table X 是最终给到业务侧的表。
蓝色的 Table A-E，是原始数据。
黄色的 Table F-I 是你计算出来的中间表。这些表都是你自己写程序要处理的表。
然后你为了懒省事，嗯，应该说本着不重复开发的原则，你还要用到同事小伙伴处理的表，Table J 就是别人处理过的结果表。

过了一段时间后，业务侧的感觉你提供的数据中有个字段总是不太对劲，其实就是怀疑你的数据出问题！需要你来追踪一下这个字段的来源。
首先你从 Table X 中找到了异常的字段，然后定位到了它来源于 Table I，再从 Table I 定位到了它来源于 Table G，再从 Table G 追溯到了 Table D，最终发现是某几天的来源数据有异常。
或者说，你从 Table X 定位到了异常的字段原来来自于其它小伙伴处理的表 Table J，然后继续向前回溯，找到了这张表在处理过程中的某一个步出现了问题。

我们如何将数据血缘关系进行可视化呢：
在NBI大数据可视化平台中我们可以通过桑基图方式来对数据关系链路来分析：

数据治理中的数据血缘关系是什么？用来解决什么问题

在NBI大数据可视化平台中只需通过拖拽组件和字段即可快速生成桑基图
（1）从组件库中拖入桑基图组件到编辑器中：数据治理中的数据血缘关系是什么？用来解决什么问题

（2）组件右键，设置数据数据和样式，即可完成数据的呈现：数据治理中的数据血缘关系是什么？用来解决什么问题

更多信息请参考（http://nbi.easydatavis.com:8033）

数据治理中的数据血缘关系是什么？用来解决什么问题

标签: 工具软件, 大数据, NBI大数据, BI, 可视化分析, 敏捷BI, 数据治理, 数据中台, 数据血缘管理, 数据仓库

大数据血缘关系数据治理

安科网

数据治理中的数据血缘关系是什么？用来解决什么问题

morexyoung

morexyoung

相关推荐

docker容器与宿主机的数据交互方式总结

分布式文档存储数据库之MongoDB备份与恢复的实践详解

分布式文档存储数据库之MongoDB分片集群的问题

详解Vue数据驱动原理

vue+echarts+datav大屏数据展示及实现中国地图省市县下钻功能

THINKPHP5分页数据对象处理过程解析

需要知识的后深度学习时代，如何高效自动构建知识图谱

人工智能技术如何落地交通出行？

将云技术带入数据中心-走向数据驱动型业务的旅程

联想持续发力智能物联，构建新基建时代下的行业新引擎

数据科学面试中应了解的十种机器学习概念

Forrester发布全栈公有云开发平台报告，腾讯云再次入选领导者象限

雾计算在物联网中的应用

AI格局正在从“数据”转变为“知识”

SAP AMDP介绍 - ABAP托管的HANA数据库过程

数据骗子无处不在，教你拆穿所谓“万金油”

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中处理缺失值的9种方法

人工智能和机器学习如何从物联网数据中提取关键见解

IT打工人，AI来“抢”你饭碗了！这次从数据中心下手

morexyoung