对话友盟+李丹枫:每天处理百亿级事件,超大量级数据场景下数据团队如何健康运转?

对话友盟+李丹枫:每天处理百亿级事件,超大量级数据场景下数据团队如何健康运转?

大数据文摘作品,转载要求见文末

作者|薛娅菲、魏子敏、卢苗苗

*本文为清华-青岛数据科学研究院联合大数据文摘发起的《数据团队建设全景报告》系列专访内容,转载具体要求见文末。

“数据对于数据科学家来说是非常重要的,甚至比算法还重要。要知道,再好的模型都是靠数据养的。因此在数据应用层面,我认为中国比美国更有优势。”曾供职于雅虎,微软,FICO等多家领先科技公司,【友盟+】CDO李丹枫感慨到。

大数据发展的下半场,意识到数据重大价值的不止李丹枫,而在数据产业中,争夺数据话语权的无声战争也正愈演愈烈。2016年1月,友盟、CNZZ和缔元信三家各自拥有本行业大批量数据的公司合并,组成了新的公司【友盟+】,而新生的【友盟+】数据体量遂之倍增到中国乃至全球瞩目。

骤然增多的数据量一方面让【友盟+】在众多的数据服务提供商中,获得了天然的数据体量优势,另一方面,数据的合并和数据团队重新定位整合也给管理层带来了前所未有的挑战。就大公司内部的数据治理与整合、数据产品和数据团队的重构等话题,我们与李丹枫进行了深度对话。

每天处理约280亿事件高数据体量下,如何定义和实现高效计算?

合并后的【友盟+】数据体量到底有多大呢?

李丹枫称,合并后,【友盟+】覆盖的用户行为数据打通了PC、手机、传感器、无线路由器等多种设备。用数据具象展现:

- 覆盖125万个APP;

- 每天监测14亿移动设备;

- 每天监测680万个网站;

- 每天处理的事件数约280亿。

面对如此庞大的数据量,李丹枫坦言:第三方数据量级太大、覆盖面太广。面对全面打通的数据,【友盟+】的数据团队首先要解决的问题是:如何定义和实现用户行为数据的高效计算?以【友盟+】提供的风控业务为例,用户行为数据的量级大但数据深度浅,对于数据团队来说,在这种数据上做挖掘很有挑战性。同时,这项服务会承担大量的外部查询量。

首先摆在数据团队面前的是数据的全量更新或按需更新的选择。这个选择题经常出现在一个数据模型的训练和测试阶段。建模时不仅要考虑到基于不同层面的数据特征清晰地定义目标,还要考虑当模型成型后,所有的指标需要被有效地计算。如果数据科学家的决策是数据指标需要每天全量更新,每天将有几十亿个ID的数据回溯到数据训练的平台上,带来的是巨大的计算量和计算资源的占用。同时需要数据工程师协助数据科学家搭建有效的数据生产环境,保护计算的稳定性。因此,数据全量更新或按需更新的选择直接决定了存储和计算资源的消耗量,也就是成本。为此李丹枫博士为我们介绍了“代码健康度”的概念和评价标准。

很多时候机器是在“傻算”给定代码“健康”度规则,高效挖掘数据价值

“我们要让数据团队有这样的意识,一定要用最高效的方法来实现计算。尤其在数据体量巨大的场景下,差一点就会差很多”,李丹枫说到“比如说100亿个ID,如果每个计算能提高1%,能节省的资源是很大的。”对资源的消耗与公司的生存直接相关,作为CDO,李丹枫必须清晰地界定“高效计算”的评价标准,督促并激励数团队能够有效地使用数据。

【友盟+】的数据团队分为数据科学家和数据工程师,有不同的check point来保证“高效”。友盟+对于代码有一套评价体系——代码“健康”度。里面囊括了经常出现的代码错误、模型的稳定性(对变量依赖程度的评估)、模型的可持续性(不同版本更新的用户体验是否顺畅)和对占用资源的评估。如果一个数据科学团队的代码连续三次被监测为“不健康”,他们在组织中的权重会相应降低。对于数据科学家来说,对业务的理解直接关系到在特征的实现,需要在建模的阶段定义好数据和好方法。“不要过分追求模型的极致表现。比如一个模型的表现30%都依赖于1~2个变量,在实验室里的表现可能非常好。在实际生产过程中,一旦这1~2个变量出了问题,可能整个模型的结果都废了,这显然是公司无法接受的。所以,数据科学家要时刻提醒自己:你怎么定义你的目标?”李丹枫说。对于数据工程团队来说,内部技术委员会对定期评价团队正在运用的技术是否有效。

高效运转数据团队的核心数据团队的重构 & 数据人才的再定义

【友盟+】能够运作起如此庞大的数据量,除了专注于对数据的高效使用,还有一个重要因素是合并时的数据整合,以及和阿里巴巴内部数据团队的合作。公司高层在合并之初发动了“五大战役”,从业务角度出发整合数据。经过半年时间确定了三大产品线,其数据团队也在此基础上重构成了三大业务模块+上层数据价值实现模块的结构。“我们希望用户在用我们产品的时候就像搭积木一样,把有需求的模块拼接起来使用。数据在其中是横向打通的。”李丹枫说。

整合过程中涉及了数据的融合和业务的融合。模块制的管理思路保证了其数据可以横向打通。在数据标准化及治理方面,【友盟+】全面借鉴了阿里巴巴的数据管理经验,针对每一个Business Unit迁移数据到One Data数据体系中。接下来,数据科学家们通过第一方账号打通和算法打通两种方式对数据进行识别。在数据资源打通后可通过第一方登陆账号,把来源多样的数据识别整合为同一个人的数据。而通过建模识可以实现在第一方账号缺失的情况下的账号打通。这样一来,用户在不同设备、不同账号中上留下的痕迹就这样被标准化整合,并在脱敏后成为商家提供决策依据。

【友盟+】高层合并的流畅性给数据团队和业务的融合创造了良好的平台。改组后的【友盟+】数据团队大致分为数据科学家和数据工程师两部分,分别负责数据价值实现和数据基础保障。“数据从业者太容易钻到自己的小圈子里去了。”李丹枫坦言。作为CDO,他需要把数据团队从小圈子里拉出来,激发团队的主动性和外向型。他鼓励数据团队一旦有了新想法,便去说服同伴,组成2~3人的小团队把这个想法实现出来。再自下而上扩展影响圈,不断完善想法,直至一个新数据应用场景的出现,变成产品。在他看来,数据人才还需具备:了解客户、发现需求的沟通力;说服同伴的领导力;批判思维的洞察力和实现想法的执行力。

激发团队贡献想法,驱动数据体现价值。这对李丹枫来说是使命感使然:“我做数据的时间比较长,回国后看到有些数据沉寂很多年,并没有利用起来。我是有使命感的。我希望根据我的经验来判断数据在哪些场景中可能比较容易地产生数据价值。‘先摘容易摘的果子’,激励团队挖掘更多的数据价值。”

对职场新人的期待:放下架子,放手去做!

回国前,李丹枫在美国从事了十多年数据挖掘和机器学习方面的工作,曾服务于雅虎,微软,FICO等多家领先科技公司。“我不认为在数据领域,美国比中国具有明显的优势。从数据团队的构成来看,我认为中美的差异也已经非常小了,美国的数据团队里有很多中国人。”李丹枫说到。

李丹枫认为数据人才不单需要有数据建模的能力。具体说来,他给了职场新人三条建议:

1. Get your hands dirty。打好基础,去充分了解在你手上数据。不要只想着发论文,要放下架子,动手去清洗你的数据,了解你的数据。不要怕数据“脏”;

2. 让自己成为跨界人才、π型人才。工程方向的学生要补充数据知识,数据方向的学生要补充工程知识,工程和数据方向的学生都要补充行业知识;

3. 务实、主动、合作精神。

相关推荐