百度推荐引擎及其背后的大数据架构揭秘

在互联网世界中,什么技术代表着人工智能被广泛应用的未来?2012年12月22日,在以“推荐系统实战”为主题的百度技术沙龙上,百度推荐与个性化部高级工程师们与来自亚马逊、豆瓣网、清华大学等单位的技术专家们齐聚一堂,热烈探讨了个性化推荐领域的技术创新和实战案例。

内容推荐系统:互联网人工智能的潮流代表

目前主流的搜索引擎技术已经能够较好地满足用户的主动表达的精确需求,而在挖掘并满足用户的潜在需求方面,则需要通过构建“推荐系统”来实现。实际上,随着亚马逊商品推荐、last.fm、Netflix、Pandora、百度推荐产品家族(百度视频随心看、百度音乐随心听、百度新闻新版客户端等)、豆瓣电台、优酷视频猜你喜欢等内容推荐系统的兴起,在全球互联网市场,推荐系统已经成为炙手可热的潮流新应用,代表着互联网智能化的发展方向。

然而,建立大型内容推荐系统并不是一件轻松的事情。在系统的服务能力、算法的更新周期、交互和反馈的实时性方面,大型推荐系统都遭遇到一些独特而有趣的挑战。

当“大数据”遭遇“实时性”

鉴于推荐系统对提高用户体验的显著作用,各家主要互联网公司都投入巨资进行研究开发。伴随着推荐系统的“军备竞赛”,一些几年之前难以想象的怪兽级大型推荐系统被开发出来。这些系统具有庞大的规模,通常需要服务上千万的活跃用户、积累了PB级别海量用户数据。如何将海量的用户数据应用到实时的用户交互中去以提高用户体验,成为了一个技术难题。

百度的工程师们分享了自身在Vortex流式计算系统和LISA实时索引架构上进行推荐系统开发的经验。通过工程上的努力,推荐系统的更新周期从20小时缩短到5秒钟,提速14400倍,由此用户的转化率提高了3倍。

思路创新:从推荐“系统”到可复用的推荐“引擎”

许多主流互联网公司的推荐算法的更新周期从1个月到3个月不等,相对于搜索技术稳定的算法框架,推荐系统具有明显的算法寿命缩短的迹象。其根本的原因在于推荐系统并不是基于相对静态的内容数据,而是依赖动态的用户内容互动来进行算法预测。不断变化的用户状态和统计分布,导致不存在一种一统天下的推荐算法“银弹”。这种动态的特性将对推荐系统的灵活性和成本控制的要求提高到了前所未有的高度。

针对这个问题,百度给出了自己的答案:那就是建立跨领域多媒体推荐引擎,同时支持多种内容推荐系统和推荐产品应用的构建,以大幅度节约成本、提升推荐效果。不同的推荐产品和子系统能够复用同一套推荐引擎平台,在用户模型和内容模型上也可以泛化复用。每个推荐的产品都站在“巨人的肩膀”上,最大限度复用数据、算法、系统资源,避免重复发明轮子,同时也一定程度上解决了系统冷启动问题。

由推荐系统向推荐引擎的变革,不仅可以摊低推荐系统工程成本,还可保障算法快速更新。此外,不同推荐应用共享数据,克服数据稀疏问题;推荐产品功能横向打通,多领域立体满足用户需求。百度基于自身的推荐引擎平台,在很短的时间内实现了电影推荐、资讯推荐、音乐推荐、视频推荐、应用推荐、好友推荐等众多功能,并在运营过程中不断协同升级。

百度自身应用的典型案例如百度视频随心看。它通过推荐引擎实现了个性化电影推荐,采用了Item项目关联和Ontology本体关联复合技术,点击率高于传统列表页数倍。

相关推荐