打造爆款产品速胜,为数据找到立足之地|对话东航数据实验室王学武
本文为清华数据科学研究院联合大数据文摘发起的《数据团队建设全景报告》系列专访内容。
数据实验室不是科研组织,我们要的是成果落地。
中国东方航空数据实验室负责人王学武非常明确数据的价值所在,“科研成果变为劳动生产力需要有很长的路要走。而我们要的就是分析成果的落地,要的就是全面铺开,释放数据的潜能,通过数字化推动业务的提升。”
隶属东方航空客运营销委员会和东航信息部,东航数据实验室经过一年筹备,于2017年初正式成立。
变现大数据资产的价值,推动业务价值提升,后期甚至可以孵化新的项目出来,尽管刚刚出现不到一年,王学武对这一筹备许久终于上马的项目充满了想象力。
而当把航空这一与用户贴合紧密的领域与大数据放在一起,也确实可以产生很多新的碰撞场景。
数据实验室不是随便建起来的拍脑袋工程,在其正式成立之前,王学武和同事花费了大量的时间与公司高层、与目标用户进行沟通。他很明确地告诉我们,首先,一个公司需要从战略上明确,为什么需要数据实验平台?将会起到什么作用?再从高级分析用户层面考虑,数据实验室是否能解决他们现有数据分析的难点和痛点?有没有一个明确的业务场景,能够推动他们在数据实验平台作尝试?
东方航空数据实验室项目负责人 王学武
“用得顺手”是让大家“真正用起来”的关键
“大家都在上(数据团队/项目),但到底能做什么?具体做什么?其实很多都还不知道。但是别人都在做,你没做的话就像土八路了。”王学武说。
数据实验室是适应东航数据分析发展的产物。如何让分析人员在实验室真正创造价值,把数据探索、数据挖掘、数据可视化等工具用起来,却不容易。对此,王学武认为,“对数据的价值有非常清晰的定位,让大家用得顺手”是让产品“真正被用起来”的关键。
基本的出发点有了,团队在着手做事情前,要有非常明确的目标和清晰的商业诉求,能清楚地描述给来自各领域的联合数据分析团队成员,统一目标,并制定合理的计划。
数据实验过程是一个持续探索、持续迭代的过程。不仅是对分析成果进行迭代,也对工作方式和流程进行优化。
“最重要一点,我们会针对不同类型的分析成果,制定它们的量化规则,量化通过模型所产生的经济收益、生产效率的提升幅度或其他考核指标,以此量化数据分析的价值。”这也是数据驱动文化真正建立起来的重要步骤。
王学武称东航建立数据实验室没有现成的经验可参考,需要进行很多创新尝试。实验室前期筹建阶段,也是一个推广的阶段,“我们经常与用户进行头脑风暴,一是能让用户更深入了解数据实验平台,了解相关技术和机器学习概念,二是我们能了解用户的痛点,与用户一起构思大数据应用场景。定期对各部门的核心分析人员进行数据挖掘知识和技术培训,以及统计学等方面知识培训,形成很好的学习气氛。”
合作各方,先打造几款爆款产品“速胜”
“燃油是航空公司高层例会上最大的敏感词,只要你提到‘可以降低燃油能耗’,你就能看到,大家会立刻提起兴趣。”王学武玩笑着说出了这个航空公司的大难题。
和很多数据团队一样,在成立之初,王学武的团队面临着如何让高层和业务团队看到自身价值的问题,这时候,打造一款“爆款”产品,让各合作方看到数据的价值十分重要。“燃油效率分析”是其中一个这样的课题。
油价是航空公司最大的变动成本项,航空公司急需通过控制油耗来降低运营成本。但是,与实际油耗相关的属性有70多个,逐个去分析它们的相关性,很耗时,容易出错。而且需要有很好的业务知识支持。
东航数据实验室通过Oracle BDA解析QAR数据,打造了一款针对燃油效率分析的产品;分析发动机寿命,预测可能出现故障的设备。通过平台提供的工具,即便在不是很熟悉业务的情况下,也能很方便快速地发现一些问题:
首先,用户在数据列表找到自己所需的数据,将它们导入个人数据沙箱;然后,利用实验室的数据发现工具,浏览数据状况,剔除数据质量不高的属性。属性由原来的70多个减少到60个。
再按与实际油耗的相关程度进行排序,与油耗相关程度越高的就排在越前面,这样就可以很快地发现哪些是相关程度最高的属性。比如:飞行距离、最大业载、机型、最大起飞重量、实际业载、发动机型号等。
再进一步,挑选几个需要分析的属性,可以看到它们与实际油耗的相关系数和图形化的分布情况,为后续深入分析指引方向。
航空领域天然拥有不少数据。而提到飞行,除了油耗,多数乘客首先想到的应该都是黑匣子中记录下的数据。其实,飞机飞行数据的记录时刻都在进行,比如飞机快速存取记录器(下称QAR)记录的数据,通过遍布飞机全身的数千个传感器,记录飞机在飞行时的品质、安全等参数,是辅助飞行员养成良好飞行习惯的必需品。
QAR可实时记录飞行员自飞机仓门关闭、爬行、攀升、渐进到降落的整个航程的操作行为和发动机状态的数据。这个数据量很大,每年将产生100T的数据量。
通过飞机上的传感器,东航可以获取每个飞行员从起飞到降落的所有操作行为,以及发动机的损耗、气象资料等数据,利用大数据建立模型分析,找出飞行员日常操作和飞行潜在风险因素,提升安全水平,并可以有针对性地加强飞行员培训,为其养成良好的操作习惯,纠正飞行员有时候出现的不规则的手动操作,减少因操作不当造成的飞机发动机损耗等问题,也会给飞行员提供更节省燃油的飞行建议,比如,针对不同的机型、风力、高度、航道的拥堵等情况,给出建议的飞行速度。
东航数据实验室技术架构探索:基于Oracle BDA解析QAR数据
如此高量级的数据存储分析需求也对东方航空的数据架构提出了更高的要求。
东航数据实验室利用Oracle BDA的12个节点所提供的强大的计算能力和网络传输能力,来处理来自营销、运行、机务、物流、地服、电商、呼叫中心等业务领域的海量数据,并将处理好的结果数据供数据实验室使用。
东航是基于旅客出行的全流程来建立数据分析体系。在旅客的航前、航中、航后环节,建立相应应用系统,增加和旅客的业务接触点,通过“以客户为中心”的服务理念,为客户提供全方位的出行服务。并在每个环节都有相应的运营系统作支撑。
数据实验室通过一套流程去促进业务提升。从上图可以看出,整个流程分为执行层面和创新层面。实验室是其中的一部分,数据流通过前端应用的客户接触点进入到数据平台,数据实验室从数据平台获得数据,进行分析,得到成果,通过规则引擎、数据产品等方式发布到应用前端,促进业务效率提升。
数据实验室有个优点就是数据实验环境与业务生产环境是相互隔离的。数据实验室通过ETL把BDA、Teradata、Exadata、Greenplum的数据抽取到实验室数据存储区,用户直接操作的是实验室数据存储区的数据,即便用户在实验环境进行大数据量操作时,也不会对现有的生产系统产生影响。
应用架构分为生产环境和实验环境两部分。实验存储区通过ETL从数据平台抽取数据,再整合用户上传的数据、各主题数据、参数数据和实验成果等数据。用户在数据沙箱获取这些数据,再利用前端工具使用数据。目前,实验存储区使用私有云Hadoop集群,未来也会考虑向公有云扩展。
信息化是企业开启数据化的第一步
东航在2014年就开始布局大数据战略,时任东航CIO的蔡阳先生带领着信息部各产品部成立了BICC商业智能竞争力中心,进行数据、技术和思维的专题研究,定期交流成果。围绕着这三方面,东航数据实验室讨论了很多主题,从云计算,大数据技术,数据价值链,产品路线图,算法,再到一张机票后面的二维码,都在讨论范围内。经过了1年多的场景探索,最终基本确定了营销、服务和运行这三大领域的业务目标。
在很多传统企业,信息化都是企业开启数据化的第一步。数据团队在进行数据分析、洞察、打造爆款产品之前,需要先整合企业内部数据,进而不断引入结构化和非结构化的外部数据,并通过数据管理,提升数据质量,统一数据标准。
“信息化之后,数据在东航发挥着越来越核心的作用,航空业的数字化业态逐渐形成。我们信息部和各业务部门紧密联系在一起,共同攻关克难,所收获的成果、经验与教训,都将为建设数字化东航打下基础。”王学武说。
王学武坦言,随着分析用户的水平越来越高,在使用数据分析系统时,也遇到了很多痛点和难点,阻碍他们进一步去分析数据。比如:
用户在进行大数据量查询与计算时,会直接对生产系统的性能产生影响;
实现用户的分析需求,需要业务与技术来回沟通,周期较长;
随着用户分析能力提高,用户使用数据的局限性也越来越明显,他们迫切需要一个能自主、自助进行数据分析的平台,且有很多易用的工具选择;
用户希望能有一个快速定位问题、快速试错的平台,从而降低决策和投资的风险;
他们想获得更多的数据,而不限于自己部门的;
要打破公司内各领域间的数据孤岛问题,能让数据流动起来;
现在课题的攻关难度比以往更大,需要多领域的专家一起解决,这就需要一种创新的协作方式,有效衔接业务、技术、学科等领域的专家;
从应用数据的角度来看,用户希望能“看得懂、拿得到、做得了事情”,即用户能知道有什么数据?它的质量怎么样?适不适用?通过什么渠道可以拿到这些数据?通过哪些合适的工具去分析这些数据?从而产出一定成果。
为了解决这些问题,数据实验室应运而生。
数据实验室有4个核心理念:
开放:实验室是开放的大数据实验平台,用户拥有最大程度的灵活性与自由度去使用数据;
连接:连接人、数据和分析算法,以及能在不同的人之间,不同的数据之间,不同的算法之间建立连接。这些连接会形成一种合力,能有效地解决课题研究的难点;
融合:数据融合、数据流动、数据活力。通过跨领域的数据融合,可以发现各领域之间的相关性,联动性,通过有效的协调,提高整体的竞争力;
生产力:数据驱动、数据产品,分析成果与生产应用的紧密结合,促进价值提升。
数据人才建议:以明确清晰的商业目标为导向
现阶段,数据实验室成员来自信息部数据产品部、营销委的网络收益部和客户关系部,以及其他部门的分析团队,共30多人。主要由具体作数据分析和实施课题的人员组成,公司领导为实验室明确战略方向和协调资源。成员包括业务部高级经理、统计学博士、业务专家、市场研究、产品规划、产品经理、技术架构师、大数据工程师、高级数据分析等。
王学武对于数据人才的培养也给出了自己的建议:“以明确的、清晰的商业目标为导向,通过在作课题和项目的过程中,培养具有复合能力的数据科学人才。定期举行技术、业务培训和知识分享。发挥企业内社区的作用,提升成员的认同感与成就感,进而提升参与度。在工作中,计算机科学、数据可视化、业务分析、运筹、统计等角色的成员之间要保持紧密的沟通,在不断提升自己领域的专业水平以更好对外提供支持的同时,还要学习其他领域的知识和技能,建立一个良好的学习共进氛围,让成员具备更多的能力维度。
经常带着商业问题,在数据中去探索,去验证自己的想法。这个数据发现的过程,会很有意思,很有趣,会逐渐理解数据,以及数据之间的关系,加快掌握业务知识。注意在课题和项目的实施过程中作总结和积累经验,失败的或成功的经验都是非常有价值的。最后,套一句互联网思维的话,懂得分享,才更有价值。”