对话建行数据管理部刘静芳:定义八万余项数据规范,金融巨头如何实现“数同轨”
大数据文摘作品、转载要求见文末
作者:宁云州
校对:薛娅菲
*本文为清华数据科学研究院联合大数据文摘发起的《数据团队建设全景报告》系列专访内容。
“要像管理战略资产一样管理数据。”在首届中国数据标准化及治理大会上,中国建设银行数据管理部总经理刘静芳以这句感慨总结了她的分享,也总结了建行数据团队建设心得。
3亿4千万的个人客户,390多万对公企业客户,14900多个内部机构,20多家海外分行,十多家子公司,作为排名全球一级核心资本第二位的巨型金融企业的中国建设银行(下称建行),如同其它大型企业一样也曾面临复杂的数据问题。
建行近三十年的信息化历程中,前二十年建成的竖井式、分散化业务处理系统。一方面实现了业务的信息化、提高了业务处理效率,但也不可避免地造成了不完整、不准确、不及时、不一致、不安全、冗余等数据问题。这些问题在信息化后期成为建行管理水平提升的瓶颈。
“分析这些数据问题的成因,我们发现,不管是制度、流程、机构、数据、技术各个环节的缺陷,还是在这些环节中人员的操作不到位,都会导致数据质量的问题。对此,建行进行了十几年的研究、探索和实践。”刘静芳说,从根本上、系统性解决数据问题,是建行从2011年开始新一代核心系统建设重要目标之一。
定义八万多项数据规范:数据标准化是一切的开始
对于一个分散化的、数据问题广泛存在的局面来说,如同秦朝统一六国实行“书同文、车同轨”,制定统一的企业级数据标准是最快捷的一种方法,也是最容易达成众多部门共识,实现“数同轨”的方法。早在2003年,建行总行就成立了负责整个建行信息资源的一级管理部门——信息中心,内部设置了两个专业处室:一个是数据标准处 ,另外一个是信息系统管理处。这两个处室的核心职责就是来推动数据管控的相关工作并且牵头企业级数据仓库的建设。
在新一代核心系统建设中,建行采用的方法是业务模型驱动的方法,先把银行业务进行模型化,再来推动IT的开发。通过业务建模,实现了业务需求的统一规范化定义,消除了业务人员之间对于业务理解的差异,也方便了技术人员准确理解业务,大大减少了开发的阻力。
业务建模的结果是业务模型,包括流程模型、数据模型、产品模型和用户体验模型四个部分,重点是流程模型和数据模型。流程模型主要规定了业务活动、任务的执行序列,系统控制的时间序列,以及各个业务的功能;数据模型所表达的是更细化的业务需求,它理清了企业级层面对于业务信息细节的要求,把数据实体、数据项及数据之间的关联关系等都进行了清晰的定义。
当业务模型建立完成后,技术人员就可以遵循这个模型去进行开发。在这个过程中,建行制订了企业级的业务术语库、数据标准、企业级数据模型和衍生(指标)数据视图等八万多项数据规范,形成了企业级的通用语言,可以把数据和业务的需求非常好地管控起来。
数据的“双分离”,系统达到最优
提到数据标准化在具体实施过程中的过程和效果,建行数据管理部数据标准处处长车春雷谈到,建行的新一代数据架构一方面通过业务建模和组件化,实现了每个业务数据“单点采集、全行共享”的目标,另一方面通过业务运行系统和数据使用系统分离、数据仓库的计算区和访问区分离的“双分离”模式,实现了系统性能的优化。在采集、集成到分析使用过程的每一个环节,数据区都是独立的,不会产生冲突,不会相互影响。
数据挖掘分析,则通过在企业级数据仓库环境中开辟专门的数据实验室完成。建行为每个实验室分配存储空间和计算资源。小到一个数据业务模型,大到整个企业战略的数据支持,都可以在各个实验室中独立运作,进行数据探索、模型设计和优化。这样做,既不会影响整个系统的运行效率,也不会互相干扰。而其结果,又可以反馈到数据仓库中进行共享,实现完整的闭环。另外,“双分离”模式还能够根据不同数据区对于硬件设备可靠性、容量等的差异化要求选择不同的设备,从而节省成本,获得高回报率。
“目前建行还正在基于企业级数据仓库中打造一个大数据平台,目前已经集成语音分析、图像分析、机器学习、文本分析等部分大数据工具,引入了部分外部数据,探索性地进行了非结构化数据的分析应用。”刘静芳说,“但是目前来说,传统数据仓库的结构化数据仍然是建行的优质矿石,优先提炼挖掘价值,而非结构化等大数据则是砂石,需要进一步的提取与纯化后,根据需要与前者结合在一起,实现更大的价值创造”。
数据安全管理:安全?便利?还是降低成本?
数据安全的本质是依靠技术实现安全的控制,信息安全的技术经过几十年的发展,已经相当成熟了。但是对于一个企业来说,安全的控制、应用的便利性和成本是矛盾的,从整个系统的角度去考虑,如何在这三者中间取得一个平衡点,是建行考虑的重点。
建设银行采取的措施是给数据分级,根据安全的级别不同,进行不同级别的管控。对于对象、目标、手段、阶段都要进行细分,针对不同的级别采取不同的控制措施,再用技术加以实现,由此来保障数据的安全。根据数据的敏感度,建行将数据分成了四个层级——监管级、高度敏感级、内部使用级、普遍级。这样,就可以在保证数据使用便利性的条件下,实现数据分等级的控制。
而对于数据应用人员来说,所有的数据都是企业级的,存储在企业的云平台中,敏感数据在使用时也会进行脱敏处理,杜绝了泄露客户信息的隐患。
每个人都是数据团队的一员:各司其职的数据管理文化
在建行的新一代核心系统中,数据质量是被高度关注的问题。为了建立良性的数据供给和应用循环,需要对数据质量进行实时的监测和控制。但是,数据质量并不仅仅是一个业务部门、技术部门或者是数据部门就能独立完成的工作,它需要全员参与,全员维护,要让整个企业的每一个成员意识到自己对于数据管控的责任。
在这样的背景下,就需要建立全员参与的数据管理文化。这个文化是通过在强大的技术支撑下,构建由六个角色和五个管理领域组成的数据管理职责任责矩阵来完成的。从最基础的数据需求、数据标准的制订,到数据质量、数据安全和元数据的管理,都由各个部门一起参与,不但业务、数据和技术部门彼此分工合作、各司其职,执行部门和管理部门也要构成一个从制订、使用到监督、改进的完整闭环。
在这样的团队里,数据的质量定义、流程控制、日常监测、问题分析、问题整改、评估改进等工作环节构成了完整的工作链条。链条中的每个环节都在各个层面得到了相关部门的充分关注,数据的质量才能得到有效保证。
数据新人:数据分析是打开盒子看数据,培养职业道德
和很多企业的数据团队建设者一样,建行也面临着数据人才招募难的问题。国有银行在人事管理上未完全实现市场化。建行目前基本上是与外部专家合作方式,通过项目一方面定向实现“借智、引智”,同时培养建行自己的人才。建行数据团队的成员主要是对校招的员工在工作、项目中进行培养,这需要一个相对较长的周期。
在谈到人才培养的问题时,车春雷说:“从2016年开始,我们开始实施“绿树”计划,重点培养数据分析和应用人才,从总行和各分行选拔优秀人才到总行数据分析中心学习。我们要求学员们带着业务实际的数据应用、分析需求过来,在学习的过程中把这个需求落地,边做边学”。车春雷还补充道:“目前,建行总行各部门和各分行对于开展数据分析应用和参加“绿树”计划的热情很高。这是因为在我国经济进入新常态下,金融间竞争更加激烈,传统营销的盈利增长空间缩小,而强大的数据分析能力恰恰是支持精细化经营管理的有力工具,能够显著提高银行竞争力和盈利性。”
提到给想要进入数据行业人才的建议,车春雷给出了这样的建议:培养合作精神,学会问题导向的思维,培养职业道德。
数据行业是现在最热门的行业之一,在未来一定会有源源不断的新人加入这个行业。但在企业的具体数据应用中,需要由多个专业的人员组成团队,一起解决以前没遇到过的问题,所以对于有意加入这个行业的新人来说,培养自己的合作能力是很重要的。
在数据行业里,中国的数据行业和西方面临的问题是不一样的。我们的起步时间比他们差的太多,国内大部分企业现在才解决完业务信息化,正准备做决策(管理)系统。所以在数据治理的过程中,我们还要不断面对新的问题,这需要从业者具有面向问题的思维方式,去设身处地的站在企业管理的角度,借鉴外部经验,思考问题,创造性地解决问题。
另外,数据分析是打开盒子看数据,在工作中会接触到许多方方面面的企业数据,因此需要从业者的具备良好的伦理文化和职业道德。这对其整个职业生涯会有相当长远的影响。”
*文中部分内容及PPT图片来自首届中国数据标准化及治理大会上中国建设银行数据管理部总经理刘静芳的分享。