【友盟+】李丹枫:从用户行为数据透视大数据商业密码
在WOT2016大数据技术峰会的实时计算主题专场,【友盟+】 CDO 李丹枫 做了《从用户行为数据透视大数据商业密码》的演讲,会后记者采访了他,他为大家介绍了大数据相关的知识。
李丹枫,在美国数据分析和挖掘领域工作10多年,包括雅虎,微软,FICO等在数据应用走在前沿的公司,积累了丰富的数据挖掘和机器学习的实战经验,所参与的产品在金融,保险,搜索,互联网广告及零售业中有广泛的应用。
记者:各位51CTO网友大家好,这里是WOT2016大数据峰会现场,坐在我身边的是【友盟+】CDO李丹枫。
李丹枫:大家好,我是李丹枫,在【友盟+】担任CDO的工作。我在美国工作和生活18年,2014年回国参加到了中国互联网事业中。在美国我工作过几个公司,包括比较有名的像雅虎、微软,稍微小一点是美国的征信公司FICO和一个咨询公司。我是从清华毕业的,毕业以后到了美国,在伊利诺伊大学香槟分校(UIUC)取得的博士学位。
记者:您在金融行业有一些工作的经历,您认为大数据会在金融行业中都有哪些应用?
李丹枫:大数据在金融行业最重要的一个特点就是“大”,所谓大是讲覆盖率比较大,而恰恰对于【友盟+】来说最大的特点就是覆盖量非常大,我们对接很多企业的数据,【友盟+】覆盖率在80%~90%多,基于这些数据【友盟+】在很多领域进行了探索,其中包括我们最近在风控领域进行的一些尝试。【友盟+】数据跟风控相关性表面看起来不是特别直接的,但其实行为数据是内在关联的,比如你是什么属性的人,并不由你在特定领域里的行为特征来决定。举个简单的例子:在美国,如果你想欺骗银行,前期做一个信用非常良好的公民,借钱按时还,信用就会越来越高。而信用分高到一定程度,就可以借很多钱最后卷钱而逃。而在风险直接相关行为上做这些事情是可以骗过系统。但是行为数据其实收集了一个人的日常行为,除了间谍之外,很少人能够在各个方面假扮。而行为数据这时便发挥了有效性,在不经意中某个人特性就已通过数据得到了解,通过这个特性与其他强相关数据结合,能够帮助贷款公司做更好的风险判断。这里所谓的行为大数据就是自然人行为,在覆盖量非常大时候就可以在风险控制领域充分发挥作用。
记者:用户行为规避金融风控,是否被业界所认可呢?
李丹枫:近期【友盟+】与融360联合建模,上线了基于互联网网民行为的风控评分产品,大家的接受程度还是蛮好的。在个人隐私规避的情况下,在每笔贷款的时候,都可以让用户签协议:比如很多P2P公司,需要用户提供给淘宝账号了解一些基本的数据进行模型的建立。用户允许用行为数据做判断的这个层次的风险并不大。而目对于前市场接受度,【友盟+】也在拭目以待。基于【友盟+】与融360联合建模的产品,用户也在测试当中,当然风控不是立竿见影,我们有耐心等一段时间,也许明年的这个时候,会有比较好的判断。
记者:数据可能离不开用户行为的分析,用户行为的数据在整体的大行业里,有一个什么样的存在价值?
李丹枫:【友盟+】在风控领域的探索是有很大意义和存在价值的!行为数据是用户很难作假的数据,不经意中的一些行为是很容易反映出用户本质的。行为数据应用最明显的是在广告营销领域。在金融领域我们也期待有好的效果!我们也希望在其它场景下这些数据同样能够发挥很大的作用。比如我们在传统领域帮助传统企业做好客户管理,更好地了解他们的客户。今年尝试做了一些用户生命周期、用户流失的预测,【友盟+】也会不断地在这个领域里头继续耕耘。回到原来的那句话,在中国【友盟+】用户行为数据体量是最大的,【友盟+】有责任去挖掘数据的价值,从而应用到商业当中,帮助企业更好的做数据管理,
记者:怎样才能更好的凸显数据分析的价值性和高效性?
李丹枫:首先需要找到应用的出口,依靠纯分析数据而没有实际的应用,这个有些本末倒置。所谓的实际应用,是有庞大的客户群体从而形成一个产品,而不是以咨询的方式,因为每个客户都会有不同的需求,这个不是【友盟+】的目的,【友盟+】希望通过已有的数据量形成平台性产品,众多的用户在产品上面受益,这个是对价值挖掘最核心的东西。
记者:现在会说到数据挖掘,一提到数据挖掘,就会提到机器学习,这两个有什么区别吗?
李丹枫:这两个我认为本身没有什么区别,机器学习、人工智能、数据挖掘大家都有一点点不同的定义,在实际应用当中,大家用的方式方法,用的系统没有本质的区别,我们这个岗位叫数据科学家,不管在数据挖掘、机器学习和人工智能,我们应该都是适合的。很少说你是个数据挖掘科学家,你是个人工智能科学家,我个人认为这些是没有区别的。
记者:【友盟+】是如何在海量数据中做到精准分析的?
李丹枫:【友盟+】精准分析分成几个层面,精准的定义不同,比如说我经常去阅读财经有关的新闻,但是看见财经广告从来不点,对一个广告主来说,我就是对财经广告没有任何兴趣的人。但对于一个新闻媒体来说,我对于财经类目非常有兴趣,所以精准的定义,在这两个场景里面精准完全不一样。对于新闻媒体来说,定义我为成对财经感兴趣,这是非常准确的。对于广告来说则不同。我们需要在数据挖掘的时候把不同场景区分出来。精准对于数据科学来说,最重要一点是要准确定义目标。目标函数做任何一个模型之前,都是非常重要的一点,在不同的场景下,定义不同的目标,会有不同的训练数据来训练这个模型,所以未来【友盟+】在这个方面,要把精准做的更好。
还有一些其他的精准分析,包括:短期行为、长期行为。【友盟+】做精准的好处,可以通过一些比较可靠的标注过的数据,这些比较可靠的标注数据我们可以做出更好的模型,包括性别、年龄,都是通过这些非常可靠的数据源得来的。当然最重要的:数据也好,体量也好,定义好目标和精准的实际意义,从而区别对待,不同的场景,有不同的精准定义。
记者:【友盟+】除了在精准分析上与其他平台有一些差异,还有什么最强的优势?