专访新浪微博黄波:千人千面,机器学习赋能用户信息流消费
黄波,微博机器学习平台技术负责人、资深架构师,负责微博机器学习平台和Feed算法系统。他毕业于中科院计算所,参与研究了高性能计算和算法优化;并曾供职于百度,参与开发了分布式文件系统。2010年加入新浪微博,目前专注于机器学习、深度学习、高性能计算、大数据处理等领域,致力于打造机器学习平台和深度学习平台,将机器学习技术和分布式计算应用于微博 Feed信息流、推荐、反垃圾等业务场景。
跬步千里,微博深入应用新兴技术
新浪对于大数据和人工智能技术的应用,最早可以追溯到2008年,并且随着技术的深度应用在不断发展完善。
2008年左右,新浪开始搭建Hadoop集群,建立信息系统收集公司级的基本数据,奠定了大数据系统的基础。2009年起,随着微博的兴起和壮大,越来越多的用户、内容和行为等业务数据沉淀下来,奠定了大数据的业务数据和业务场景基础。2011至2012年,微博开放平台让微博数据和第三方数据能够互通。2013至2014年,成功构建了大数据Darwin平台,用于梳理和挖掘用户数据及行为数据,刻画了微博用户的用户画像,并对微博短文本进行分析理解,形成了内容标签等内容理解体系;同时在技术上,以分布式离线处理为基础,成功引入了实时流计算,让数据能更快发挥价值,从而更好地服务于业务。2015年起,微博大数据和Feed、热门微博等业务充分结合;2016年,开始强调机器学习和人工智能挖掘数据价值的能力在业务中的作用,并开发搭建微博的机器学习平台和深度学习平台。
毋庸置疑,大数据、机器学习、人工智能已经逐渐渗透到了微博的各大业务中。然而,这一过程中不可避免地遇到了一些技术挑战。黄波表示,分布式离线计算技术的挑战就是其一,因此微博紧跟业界Hadoop生态的发展,由Hadoop 1.0升级到Hadoop 2.0,引入Hive、Pig、Sqoop、HBase、Yarn、Spark等组件,解决了大数据离线处理的问题。其次是实时流计算技术的挑战,基于此微博选择了依靠开源社区的发展,包括Storm、Spark Streaming等技术的发展和成熟。“目前遇到的最大问题是大规模机器学习和深度学习技术”,为了从容应对这一难题,微博一方面持续深入和阿里云的合作,引入数加、EMR、HPC、PAI等成熟系统来加快技术发展速度,另外一方面还依靠了开源社区的Glint、Angel、Spark、Tensorflow等机器学习技术,自研和完善参数服务器WeiPS、机器学习编程框架WeiFlow来满足微博机器学习和深度学习平台的业务需要。
千人千面,人工智能助力亿级规模的用户画像
数据是人工智能的基础。微博充分发挥了作为社交媒体的先天优势,以其平台所拥有的亿万级图片、视频和文本数据,刻画出了微博庞大的业务体系和用户画像。
黄波介绍,微博数据有内容数据和用户数据这两类。内容数据包括图片、视频和文本等。对于这类数据的处理方法,一是将内容数据映射到微博内容标签体系(微博内容标签体系分为三级内容标签,例如:一级的体育;二级的篮球;三级的金州勇士等),可解释性强,但存在一定歧义,准确性有待提高。另一种处理方式是对内容做embedding,通过embedding向量做匹配或推荐,能够对内容更深入地理解,但是解释性较差。内容数据还有一个独特的点是内容发布人,即发博者。在长期的实践中可以发现,社交网络和社交媒体中的发博者有着相对稳定的特征,在业务场景下简单有效。用户数据包括用户静态数据和用户行为数据,通过挖掘用户性别、年龄、地域、注册时间、账号类型、是否橙V等静态特征构建用户静态画像,通过分析用户在业务产品中的特定行为来构建用户行为画像,例如用户一级兴趣标签、用户实时兴趣标签等。
以上所述的内容数据和用户数据就是业界常说的特征,通过与模型的结合,能为微博Feed信息流、热门微博等场景带来显著的效果提升。在这其中,人工智能技术的部署应用,也为微博的整体技术架构带来了深刻的变化。
人工智能技术的引入,让微博的离线系统、实时系统、在线系统融合得更加紧密。在线系统的业务数据化为机器学习提供了最基础的业务样本数据;离线系统的模型训练充分利用了分布式计算能力,加强了对大数据的处理和理解;离线训练出的模型加载到在线系统并应用于业务系统中,能够为业务发挥作用;同时,实时系统不仅可以提供实时特征,而且还能提供机器学习在线训练服务,有效保障了特征和模型的时效性,从而良好保障了业务效果。以微博Feed信息流为例,基于对内容数据的充分理解和对用户画像的精确刻画,利用大规模机器学习模型排序能够有效控制大量低质内容,深入挖掘出用户感兴趣的个性化内容,从而改善微博Feed信息流的用户体验。
此外,微博特别设立的机器学习实验室也在深入研究人工智能技术潜在的应用价值。“追踪前沿技术,保持技术领先;落地微博业务,体现技术价值”,这是微博机器学习实验室的初衷和使命,其主要的研究方案包括机器学习算法、推荐算法、自然语言理解、计算机视觉、语音识别、机器学习系统、分布式计算系统、高性能计算系统、大数据技术等。黄波提到,目前在大规模机器学习排序算法、深度学习排序、深度学习推荐、文本处理、图片识别、机器学习平台、深度学习平台等方面都已经取得了不错的进展,特别是微博大规模机器学习排序算法在微博Feed信息流、热门微博中的应用和全量上线,取得了显著的效果。
返璞归真,技术落地创造实践价值
时下的社交媒体大趋势,都在致力于通过大数据、人工智能来更全面地了解用户画像、更深刻地理解内容、更细致地结合业务场景,从而提高信息分发效率,为用户提供更好的内容消费体验。
微博实践表明,人工智能技术能够更好地促进产品和业务的发展。在微博,大数据、人工智能等新兴技术广泛地应用到微博Feed信息流、热门微博、Push消息推送、图片推荐、反垃圾等业务中,并取得了不俗的效果。产品和业务目标的理解是基础,在目标理解的基础上再将产品场景、业务目标、用户行为、内容数据等数据化。数据化之后,技术人员利用大数据策略、机器学习模型等方法拟合或逼近业务数据目标,这个过程通常需要借助大规模分布式计算和高性能计算来迭代逼近。同时也要求尽可能早地将这些策略或模型灰度上线到线上系统中,便于收集灰度测试数据,对比评估业务线上效果。数据化是指产品全流程的数据化,包括机器学习模型上线灰度对比的数据,用数据来说明效果。
在本次云栖大会上,黄波将分享微博机器学习平台、深度学习平台的架构和实践,介绍其在微博信息流产品中的实战解读,同时介绍平台搭建中的经验教训,向业界分享微博在机器学习和深度学习方面的最新进展。同时,黄波也希望可以借助这次机会和业界深入交流,获得更多业界经验来完善内部系统及平台,更好地为微博业务服务。