独家 面向业务的企业元数据管理
[导读]本内容选自普元信息软件副总经理、大数据产品线总经理王轩于2016年11月6日在首届中国数据标准化及治理大会暨清数DAMA揭牌仪式上所做的题为《面向业务的企业元数据管理》的演讲。
首届数据治理大会拉开了中国数据标准化及治理研讨序幕大数据时代,政府和各行业、企业对数据资产及其价值创造的重视程度空前高涨,但“数据标准化、数据治理、数据质量”等基础数据能力建设尚未获得应有的重视。普元大数据多年以来一直以大数据治理为核心,曾先后为国家开发银行、国家电网、上海移动、秦山核电站等多个大型企业提供数据治理解决方案,积极推动中国大数据基础建设,以及数据标准化及治理的全面落地。本次大会的召开,预示着数据标准化及治理逐渐受到社会各界的关注和重视,一个开放、共享的大数据产业生态正逐步形成。会上,中国电子技术标准化研究院、清华大学数据科学研究院、国际数据管理协会中国分会(DAMA China)三方签署了数据标准化及治理的战略合作协议,对于国家大数据标准化的试验验证和应用推广做了明确的规划,携手普元信息、阿里巴巴等大数据厂商共同推动形成大数据标准化的产业生态环境。
会上普元信息软件副总经理、大数据产品线总经理王轩王轩在演讲中提到了由于管理范围窄、业务难结合、应用场景缺、技术不完善等方面的问题,企业元数据价值往往难以得到释放,呈现“孤独的元数据管理”。结合普元元数据管理平台在某物流企业实现自动化、实时数据资产采集,某航空公司实现业务化的数据地图梳理,某电力集团实现基于元数据的用户自助数据查询等诸多案例中的应用,分享了普元的元数据解决方案。
普元为某物流企业搭建元数据管理平台架构据悉,今年已经是普元专注数据治理路径走过的第9年,其大数据产品已经在银行核心业务、能源数据资产管理、电信信息化等领域有着不可撼动的市场地位。未来,普元将进一步深化在数据标准化及治理方面的布局,帮助企业规范企业内外部的数据治理与管理,提升企业数据资产价值,更好地应对未来企业数字化转型。
王轩演讲实录
很高兴有机会就元数据管理在整个信息化中所起的作用做一次分享。在我们的微信群里经常会讨论企业做元数据有什么用?大家一致以为元数据管理做起来挺难的,而且做完了以后还有可能是白花功夫,最后没起到什么作用。作为一个元数据平台的专业研发者,我心里一直觉得不是滋味。企业元数据管理这个事其实很重要,最近Gartner在研究报告里明确指出,“企业元数据管理将是未来企业信息化的核心基础设施”,在整个大数据环境中,信息变得越来越复杂,如果没有元数据管理来帮企业把这些信息自动化管理起来,就很难做到信息的有效利用。
图:元数据管理在Gartner信息能力框架中的位置(图片来源:Gartner)
一、企业元数据管理现状既然元数据管理这么重要,就让我们来看看元数据管理现状,我认为可以用“孤独”来形容目前的元数据管理状态,元数据管理孤独主要体现在四个方面:
图:孤独的企业元数据管理
1、管理范围窄目前的元数据管理范围窄主要体现在两个层面:第一个层面是元数据只管理了数据仓库相关的技术元数据,顶多是管到和数据仓库相关的系统这样的层面,远远没有达到企业元数据管理;第二个层面,即使在数据仓库领域,也只管理了技术元数据,没有管理业务元数据,这就造成大家只能看到一堆的表结构,但是看不明白其中的具体含义。而且管理的技术元数据也不准确,并不能完全在元数据系统里体现。
图:管理范围窄
2、业务难结合前几年的时候,银联数据管理部的负责人跟我说,他特别害怕这个系统成为部门的玩具系统,所有的功能只能在数据管理部内部用,外部人员没法使用。其实他说的很有道理,任何一个系统都应该是为业务服务的,如果只有一个部门的人在使用这个系统,那么这个系统就是没有生命力的,如何让各部门的人都来使用这个系统是很重要的一件事。
图:业务难结合
3、应用场景缺就目前来看,大部分元数据的应用场景都集中于元数据内部的功能,包括很多CTO都只意识到元数据的功能,比如血缘分析,血统分析,版本管理等,这些功能都是企业在信息化里面使用到的,但实际上元数据的作用不只是体现在这些有限的功能上。
图:应用场景缺
4、技术不完善上面三个问题,其实归结到底,都是由于元数据管理的技术不完善造成的。元数据管理技术不完善主要体现在三个方面:第一,是扩展性不强。企业的元数据管理应该不仅仅是对数据的管理,还有对业务数据、甚至对架构的管理,但是现在很多工具没办法管理这些;第二,是采集能力差,很多企业在做元数据管理的时候,还需要用手工的方式做辅录,让大家很痛苦,不能真正建立起信息的链路;第三,不能实时展示数据链路,很多企业的元数据管理还停留在T+1(甚至不是T+1)阶段,经常在一个星期甚至是一个月以后才能了解到现在数据资产状况,在数据增长速度这么快的情况下,这是远远不能满足企业需求的。
图:技术不完善
二、面向业务释放元数据价值
为了让元数据管理摆脱这种孤独的现状,我们可以从四个方面着手:
1、在技术上增强扩展性,实现自动化采集为了让元数据管理为企业带来更多业务场景,完善元数据管理的技术能力十分重要。第一,要增强元数据管理的扩展性。这也是我在很多文章里提到的,现在大部分元数据产品都是符合CWM标准的,这种架构只支持与数据仓库相关的元数据,却不支持业务、架构等元数据的采集。所以,元数据管理架构符合的规范要进一步下沉到最底层的MOF。我们一直是以MOF为底层基础的,包括我们现在做的新一代平台,中间整个微服务的架构都是用元数据管理起来的,实现了服务、数据以及运维过程的统一管理。第二,要增强元数据的采集能力。我是2010年到普元的,在这六年的时间里,我们面临的是各种各样的元数据,从采集脚本、存储过程、报表,到分析各种各样的语法树,一点一点去完善,尽量采集达到100%。
图:完善元数据管理的技术能力
2、增强业务元数据管理能力,让业务用户广泛使用充分发挥元数据管理价值的前提是让业务人员弄懂并学会使用元数据管理系统,这时候采集业务元数据就变得非常重要。现在通过Excel表格采集业务元数据的方式,需要业务员来填写各种各样的数据项,采到系统里之后,也不知道业务元数据与技术元数据的关系,虽然能看到业务元数据,但是无法体现这些业务数据在技术上的路径。为了解决上面的问题,首先自动化采集是必不可少的,另外还可以从文档里去分析业务元数据,再将业务元数据和技术元数据做对应,让更多的用户参与到元数据系统的使用上来。
图:让业务人员广泛使用元数据管理系统
3、与业务结合,实现面向业务的定制化应用现在元数据管理系统只局限在内部特定功能的使用,为发挥元数据管理的价值,应该把元数据做成一个服务化的系统,嵌入到企业各个场景中,为其他系统提供能力,让其他系统变得更自动化。元数据管理的作用不应该只是让用户知道元数据有哪些,而应该变成一个很重要的基础设施,集成到企业信息化的方方面面。
图:实现面向业务的定制化应用
4、打通数据生产线,形成自助数据供给元数据管理成为基础设施之后,如何在产品的生产线上起作用?比如,在智慧城市里建设一个大数据平台之后,如果还像原来那样使用数据是行不通的,其实完全可以让开发人员自己拿到数据,把整个产业线变得更简单。我们跟某航空公司交流的时候,了解到他们现在有一个痛苦,因为所有的业务系统都来向数据部门要数据,数据部门需要逐个讲解,并把数据导过去,随着业务系统的增多,根本忙不过来。如果用元数据打造一个自助的数据生产线,就能让业务的开发人员很容易地从数据平台中拿到数据,在减轻数据部门的工作量的同时还能提高业务开发人员的满意度。
图:用元数据管理打通数据生产线
三、普元企业元数据管理实践目前我们已经有了不少企业元数据管理的案例,之前我们做的都是国开、中信、银联等金融企业,我发现从今年开始,物流行业、航空行业也开始关注元数据管理,着重基础性的数据工作了,下面我挑几个比较典型的案例给大家分享一下。
1、某物流企业:自动化、实时的数据资产采集
图:某物流企业元数据管理平台架构某物流企业已经建立了比较完善的数据平台,我们的元数据管理平台,帮助他们管理了90多个业务系统,优化整个现有流程,采集的准确率达到95%、甚至99%,无论是简单环境(比如GP的采集),还是复杂环境(比如存储过程的采集),我们都做到了自动化。
图:某物流企业元数据采集结果有个事很有意思,当时某物流企业有500多张报表,做完自动化采集以后,发现有50张报表从来没有跟任何系统有过关联,这才发现他们一直在维护50张没有用的报表,并且放心地从报表名单里面去掉了,这就是自动化采集带来的效果。很多人也许会问,自动化采集了技术元数据,不还是孤独的元数据吗?大家可以看下面这张图,其实我们已经让元数据融入了他们的开发过程,每一个开发环节都会使用元数据的服务来提升他们的要求。
图:基于软件生命周期的元数据管理特别是在测试部署阶段里,其实元数据有设计态、测试态、生产态,多态元数据在理想状况下应该是一致的,但是在现实环境中很难一致。我们知道,一个系统能不能上线,需要开发管理者和运维人员的双线确认。在开发管理时,之前开发人员需要人工比对以保证开发和设计一致,现在元数据管理系统可以直接给出差异报告,开发管理者可以根据报告中差异的多少,来判断系统是否符合上线的要求,下图是我们建立的一些规范流程,常规的分析,还有给他们建立的资产地图,这张图还是比较技术化的数据地图。
在系统运维时,某物流企业原来就经常发生这种事:一个测试系统,测试OK了,但是上到生产上,才发现原来这个系统的上线会影响一堆系统,还要退回来。我们提供的自动化元数据采集能力可以保证元数据的全面采集,完整地比对两个状态之间的差别,提前知道系统的上线带来的影响,再判断这个系统能不能上线,并通过一系列流程,提前告知其他系统做好相应准备。
2、某航空公司:业务化的数据地图我们在某航空公司做的主要是业务化的数据地图,原来的数据地图是给技术人员看的,由于业务用户并不关心有多少系统,也不关心系统之间的关系,业务用户只关心和业务有关的事情,要看的是不同业务主题的数据在哪里,业务模型之间的关系,我想要的业务数据从哪里能拿出来。所以,我们梳理了整个航空公司的模型,用业务人员能理解的方式,把这些数据展示出来。
图:某航空公司业务数据地图的梳理
图:某航空公司数据资产分布
3、某电力集团:基于业务元数据的业务用户自助数据查询因为电力行业的业务人员的IT水平有限,没办法自己去设计报表,也没办法去报表系统做自助查询,所以该电力集团每天都要处理大量来自业务人员的需求。我们梳理了该电力集团所有的元数据,并且跟报表线做了整合,通过业务元数据和技术元数据的对应,让业务人员可以查询业务数据对应的技术通路,最后把报表呈现出来,用这种方式,让业务人员自己去设计报表,大大减小了数据部门的工作量。
图:某电力集团业务人员自助设计报表在某电力集团我们也做了业务化的数据地图,因为每个地方的业务用户对数据的认知能力是不一样的,所以这个数据地图是针对业务流程的,从这个数据地图上能看到每个流程的节点上有哪些数据,让业务人员通过这种方式来找到需要的数据。
4、某电信运营商:基于业务元数据的自助数据服务在某电信运营商这里,我们做的是整个数据的发布和数据的管理。利用元数据建立整个数据的生产线,在数据发布的时候,开发人员就能自助拿到数据,这在该电信运营商有了很好的效果。其实不仅仅是内部的开发者,还有一些数据的消费者、购买者,也可以通过这种方式自助获得数据;当然在其中也遇到了各种各样的问题,比如说数据脱敏、数据项展示、数据权限等,但都得到了有效的解决。
图:某电信运营商基于业务元数据的自助数据服务以上是演讲全部内容,谢谢观看!
整理:陶佳晨
校对:闵黎
编辑:刘文清
转载须知如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:datapi),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。