数据+计算+人工智能=比你更懂你
2016ATF阿里技术论坛于4月15日在清华大学举办,阿里巴巴搜索事业部资深总监、清华校友司罗,向我们讲述了如何构建电商大脑,让整个电商生态更加智能。比你更懂你,来源于在数据、计算与人工智能的完美结合。
下面请看司罗的图文演讲。
司罗:我们阿里的业务刚才阿白讲,是环绕全球的,阿里的技术团队也是全球跨地域的,我们有来自各个地方的阿里同事一起用技术的力量,在阿里这个大舞台上为大家创造价值。很高兴回到我的母校清华大学,还深深记得我大学时的老师精彩的课堂讲解和教导,记得当时我们上人工智能的课,我们老师讲了一个案例非常有意思,用人工智能的方法来解释他的小孩如何学家乡话,这么多年过去了,他的小孩已经长成了大小伙,人工智能和大数据在社会生活方方面面也有巨大的应用和进步。
今天非常荣幸来到这里和大家分享大数据在阿里的应用。新的世纪是大数据的时代,我们把数据和算法看作生产资料和生产力的关系,如果没有智能算法,我们只能简单的累加数据,30年来,我们屡次见证了智能算法的力量,改变了人们对智能的认识,阿里巴巴在大数据上进行了非常多的创新。阿里电商的丰富场景提供了非常丰富的大数据,为我们创造了在大数据舞台上创造更多价值的机会。
我们可以认为电商的数据主要分为商家、商品、消费者和他们的关系,比如说商家,有着本身商品的上下架的数据,消费者有购买收藏,浏览商品等各种各样的行为。我们有非常丰富的电商数据,我们希望对这些数据能够进行深入的分析。
下面我举一个例子,分析数据我们发现,有些商品之间非常相关,如果我们看到数据说有人购买广场舞鞋后再购买老花镜。那我们对于所有购买老花镜的人推荐老花镜,大家觉得这样会有好的效果吗?实际情况不是这么简单,我们发现有的购买广场舞鞋的人他们的目的并不是自己持有,而是送人。比如说孩子给自己的母亲、或者送同事,所以说对所有购买广场舞鞋的人推荐老花镜是不合适的。精准的给50岁以上的中老年妇女推送是合适的,有好的效果。所以说数据有了,从数据中创造知识,算法深入分析数据是非常重要的。
个性化推荐是电商算法中一个非常重要的方法。第一,我们希望能够根据在线消费者的消费行为发现即时有效精确的信息,我们要抓住时尚潮流。同时我们也根据消费者个体、消费者画像,能够提供有针对性的商品,两个例子可以涵盖两方面的目的,在2015年“双十一”的过程中,阿里内部在运用了个性化的方法,让每个消费者看到了不同的主会场,大大提升了用户的消费者的点击率,其中点击率提升50%以上,证明了智能算法的价值。
我们所做的个性化算法,我们希望通过在线学习抓住消费者的心理,我们知道电商有各种各样的频道,有各种各样的行业,比如说天猫超市或者阿里汽车等等,原有的推荐很多都是人工来控制的,但是我们发现在实际的工作中,这种简单的设计是不全面的。比如说在下午2点钟左右是主妇消费群体,晚上8点钟左右是下班白领消费群体。所以说我们需要对不同的消费群体进行分析。我们的目的是从不确定中寻找规律。比如有一个赌客,来到赌场里尝试了一些赌博机。要最大化收益,他既希望把钱花到已经尝试的收益好的赌博机上,也希望尝试新的可能带来更好收益的赌博机。
在实际的应用中,每一个应用都有它自己的特色,比如说在电商领域,我们知道一个商家的连衣裙是非常热销的,我们也预估同个店铺的一个连衣裙新品可能热销。我们设计了HierarchicalContextual Banding Learning算法。我们说的这个算法,去年在阿里一个每天有上千万的流量的频道上线,每天能多产生近千万级的销售额,这里可以清晰的看到算法的力量。
那么第二个实例是手淘无线推送,无线推送就是在用户没有打开app的情况下,也能够推送信息主动触达用户。无线推送是一种非常重要的引流工具,我们的目的是希望在准确的时间向准确的用户发送准确的消息。我们把用户带到手机淘宝,这样的话可以提高用户浏览率的目的。这是我们去年时候的给一个用户推送一个分味小吃的食品的例子。手淘推送是一个非常重要的功能,它原有的工作方式是人工加简单规则,比如说阿里汽车等等,他们都希望自己的活动能够送达适合的人群,但是每个业务方他们由于受到资源的限制,他们无法精确计算适当的人群。而且我们希望一个用户只收到一个信息。所以原来简单人工的方法就是哪个业务方的活动先发,哪个活动拿到用户,这种方式造成资源浪费,无法进行更好的最大化全局利益(如总打开数)。我们做个性化的方法,能够根据消费者在阿里全网的信息,能够准确的分配各种活动到相应的用户,这种算法很大程度上提高了消费者的整体推送打开数。
下面我们讲一些有关模型方法的内容,它的目的是对于一系列的活动,希望把这些活动分配给消费者,能够把消费者最感兴趣的一个活动,仅仅一个活动能够送达到这个消费者,所以如果我们把这个弄成数学模型,那么我们在这个活动中,表示着我们究竟应该向什么样的用户发送什么样的信息。
我们的目标是希望最大化整体打开数,同时我们还有各种各样的方式来保证,活动应该选到适当的人群,也不要超过太多的人数。当然我们还要保证用户收到的是仅有一个的活动。我们通过优化的方式来实现,非常有效的帮助引流人群的需求,以及全局利益最大化的目的。
消息推送本身也是非常丰富的应用,一个方式是把图片加入消息推送中,一个信息本身包含了文字的信息,又包含了图片的信息,我们在算法上对于图片和图,文字的内容进行了联合建模,能够提升用户的体验,打开率可以提高推送10%—20%。
还有一个就是基于地理位置信息的推送,我们从两个方式达到这个目的,一个是长时的LBS信息建模,还有一个就是更进一步的即时的LBS信息建模,比如说在一个商圈附近,我们知道这个消费者在线上对一个品牌感兴趣,如果刚好这个商圈附近一个线下的店铺做这个品牌推广,我们就把相应的信息推送给消费者,这样就形成消费者和信息的匹配。所以我们会做到更精准的推送,这样会比推送线上商品收到更精准的效果。
最后一个我简单介绍一下,我们现在做的一个创新项目,淘宝头条,如果大家使用手机淘宝,你会发现有一个淘宝头条的栏目,淘宝头条的栏目是定位在生活消费资讯平台,能够更好的吸引消费者,提升消费者体验。
那么淘宝头条目的是为了让消费者看到该看的信息,找出消费者该看的想看的头条,同时我们也希望反向预估特定的人群他们所希望看到的信息,这样的话达到创造明日头条的目的。
下面一个关于算法的例子验证了多视角算法在阿里电商方面的运用。我们有一个同事刚生了小孩,一两个月的小孩得了比较重的过敏症,所以说医生嘱咐就要买比较柔软的浴巾,他在手淘上购买了非常柔软的纱布浴巾。下一次他登陆手淘时,头条就给他推荐了“过敏宝宝添加辅食,必须注意这5点”的头条内容。以前他并没有搜索或用其他方式表示小孩过敏的情况,可是算法的力量能够给他提供他需要看,也是想看的内容,这是怎么达到的呢?
是因为我们的算法能够精确的发现,购买行为和浏览之间的关系,我们发现有很多的用户,他们购买了像全棉浴巾这样的东西,我们发现他们对小孩过敏的资讯感兴趣,我们把购买行为和阅读行为进行精准的连接。
我们头条算法经过了多次的迭代,小步快跑,最开始的算法只是把头条内商品的ID罗列出来来连接消费者。但很多头条没有的商品ID,我们只能通过这些内容信息更好的连接头条和消费者。同时我们也实现了在线学习的功能,用来提升用户体验。这些算法的效果是非常明显的,我们淘宝头条UV大约一年左右的时间增长到原来的4倍,非常显著。能够为消费者创造更多有趣,有意思的头条,同时也能产生更多,更大的商业价值。
上面我只是介绍了三个的例子,整个阿里的电商算法应用是非常广泛的.希望以后有机会和各位老师同学多合作。
阿里搜索事业部求贤若渴,请联系 [email protected]。