不止Alexa和AWS,揭秘亚马逊人工智能发展史
【腾讯科技编者按】亚马逊上周四公布了 2017 年第四季度财报,盈利接近 20 亿美元,创下历史纪录。
Alexa语音助手和AWS云计算服务是亚马逊业绩的亮点。
《连线》杂志近日刊文,介绍了深度学习技术如何赋能Alexa和AWS,以及亚马逊内部的几乎所有部门。
以下为腾讯科技(微信号ID:qqtech)编译整理的文章概要:
2014 年初,斯里坎斯·希鲁梅拉(Srikanth Thirumalai)面见亚马逊CEO杰夫·贝索斯(Jeff Bezos)。希鲁梅拉是一名计算机科学家。他于 2005 年从IBM离职,成为亚马逊商品推荐团队的负责人。这一次,他提出了一项全面的新计划,将人工智能的最新成果应用至自己的部门。
在会议上,希鲁梅拉带来了一份 6 页纸的计划书。很久以前,贝索斯就提出要求,即汇报给他的产品和服务计划必须限制在这一长度范围内,同时还要配上一份模拟的新闻稿,用于描述最终成果。现在,贝索斯正在依靠自己的助手们,将公司转型成人工智能发电站。在亚马逊的发展早期,商品推荐功能就已集成人工智能技术,发货调度和仓库机器人也是如此。然而近年来,这个领域正在掀起一场革命:机器学习正变得越来越高效,尤其是在所谓“深度学习”技术的推动下。计算机视觉、语音识别,以及自然语言处理等技术也都因此获得了飞速的发展。
在这个 10 年的起步阶段,亚马逊并没有大力投入这些技术。然而现在,亚马逊意识到,需求非常迫切。这个时代最关键的竞争将发生在人工智能领域:谷歌、Facebook、苹果和微软都在押注此类技术,而亚马逊已经落后。亚马逊设备和服务副总裁大卫·利普(David Limp)表示:“我们找到每个团队负责人,问他们,‘你要如何利用这些技术,将这些技术嵌入自己的业务?’”
希鲁梅拉牢牢记住了这点,并在年度计划会议上找到贝索斯,向他提出了关于如何更积极地发展机器学习技术的设想。他认为,亚马逊的核心业务已发展 20 多年,而机器学习技术的最佳应用场景是与亚马逊核心业务不相关的图像识别和语音识别,因此利用机器学习技术完全重新开发现有系统风险太大。他表示:“从来没有人真正将深度学习应用于商品推荐,并带来更好的结果。因此,我们自己需要有信心。”然而,贝索斯想要更多,而希鲁梅拉实际上并没有做好万全的准备。因此,他分享了一个更激进的选择,即利用深度学习技术去颠覆商品推荐的运转方式。这需要用到他团队尚不具备的能力,尚未开发出的工具,以及从没有人想过的算法。贝索斯很喜欢这个选择,所以希鲁梅拉重写了一份模拟新闻稿,并着手去做。
过去几年,大批亚马逊管理者都曾携带 6 页纸的计划书去找贝索斯,希鲁梅拉只是其中之一。他们提出的想法涉及到各式各样的产品和完全不同的客户。然而,他们每个人设想的都是希鲁梅拉计划的一个变种:用先进的机器学习技术来改造亚马逊的某个部分。其中部分涉及到对当前项目的重新思考,例如机器人方面的工作及庞大的数据中心业务AWS。另一部分则是开发全新的业务,例如基于语音的家电,这随后发展成为Echo智能音箱。
最终结果的影响远远超出单个项目。希鲁梅拉表示,在他面见贝索斯时,亚马逊的人工智能人才还是相互孤立的。“我们会交流,但不会分享很多东西,因为我们彼此的经验不太容易直接转移。”他认为。在庞大的工程海洋里,这些是人工智能孤岛。在用机器学习去改革公司之后,这样的局面得到了改变。
尽管所有这些 6 页纸计划书都属于亚马逊的“单线程”团队,即某个特定团队是技术的“拥有者”,但亚马逊的团队之间已展开跨项目的合作。内部科学家尝试解决难题,并与其他团队分享各自的解决方案。在整个公司里,人工智能孤岛开始相互连接起来。随着亚马逊人工智能项目目标的扩大,挑战的复杂性也成为了吸引顶尖人才的磁石,尤其是对那些希望自己的工作立即发挥影响力的人才来说。这改变了以往亚马逊对纯学术研究的厌恶:亚马逊的公司文化要求所有创新必须以服务客户为中心。
亚马逊喜欢使用“飞轮”一词来描述,业务的不同部分如何运转,并形成统一的永动机。现在,亚马逊拥有强大的人工智能飞轮,来自某个团队的机器学习创新成为了赋能其他团队的利器,反过来这些团队开发产品、提供服务,从而影响其他团队,甚至整个公司。以付费服务的形式将机器学习平台提供给外界本身就是种能盈利的业务。在某些情况下,这还有助于收集更多数据,进一步提高技术水平。
在亚马逊从深度学习门外汉发展成为行业重要力量的过程中,有许多这样的 6 页纸计划书出现。转型的成果在亚马逊公司内随处可见,例如基于机器学习基础架构的推荐系统。目前亚马逊正变得更聪明,能建议用户下面应该阅读什么,应该在购物清单上添加什么,以及今晚可以看什么电影。今年,希鲁梅拉开展了一项新工作,即负责亚马逊的搜索服务。他希望将深度学习技术应用于搜索服务的方方面面。
华盛顿大学顶尖的计算机科学教授佩德罗·多明格斯(Pedro Domingos)直言:“如果在七八年前问我,亚马逊在人工智能领域的影响力有多大,我可能会说,‘他们什么也不是’。但他们非常努力。现在,他们已成为了这个领域的一股力量。”
或许,亚马逊已经是一股重要力量。
Alexa效应
亚马逊进军人工智能的旗舰产品是智能音箱Echo,以及基础性的Alexa语音平台。这些项目也来自于 6 页纸计划书。这样的计划于 2011 年通过名为“ 1 号运营计划”的年度规划流程提交给贝索斯。其中的参与者之一是自 2004 年就开始就供职于亚马逊的阿尔·林赛(Al Lindsay)。当时,他被要求转而负责Prime技术团队,从事全新的项目。他还记得当时提出的概念:“一种低成本、无所不在的电脑,大脑位于云端,你可以用语音与之互动。你对它说话,它也对你说话。”
然而当时,开发这样的系统听起来就像科幻小说,产品似乎就像《星际迷航》中的对话计算机。这需要强大的人工智能能力,而当时亚马逊还没有掌握这样的技术。更糟糕的是,有能力开发此类系统的专家人才很稀缺,愿意在亚马逊工作的就更加凤毛麟角。谷歌和Facebook正在争夺这个领域的顶尖人才。林赛表示:“我们是弱者。”他现在已晋升为副总裁。
华盛顿大学教授多明格斯表示:“亚马逊的形象有点不太好。在外界看来,该公司对以研究为导向的人才不够友好。”亚马逊完全专注于客户,而企业文化也崇尚好斗精神,这与学术界和竞争对手的风格完全不同。多明格斯表示:“谷歌会对你很宽容。而在亚马逊,你需要自己从元件开始组装电脑。”此外,亚马逊还有更不好的形象:该公司的创新工作往往被视为企业机密。
2014 年,顶尖的机器学习专家延恩·勒昆(Yann LeCun)在内部会议上为亚马逊的科学家们做了一次讲座。在他被邀请参加此次活动以及活动举行之间,勒昆接受了Facebook的职位邀请,但他还是来到了亚马逊的活动现场。勒昆回忆,在一个大约可容纳 600 人的礼堂里,他发表了演讲。随后他被领进一间会议室,不同的小组一个接一个进来,向他提问。然而当勒昆向他们提问时,这些人的反应都很迟钝。这让他感觉不好。他最终选择Facebook的职位部分也是因为,Facebook同意将人工智能团队的很大一部分工作开源。
由于缺乏内部人才,亚马逊动用强大的财力去收购具有这方面专业性的公司。利普表示:“在Alexa的发展早期,我们收购了许多公司。” 2011 年 9 月,亚马逊收购了语音转文本技术公司Yap。该公司擅长于将语音转换为文字。 2012 年,亚马逊又将来自英国剑桥的Evi收入麾下。该公司的软件可以像Siri一样对语音命令做出响应。 2013 年 1 月,亚马逊再次收购一家语音转文本技术公司,即来自波兰的Ivona。该公司的技术可以让Echo获得交谈能力。
然而,亚马逊的保密文化仍然不利于顶尖人才的加盟。埃里克斯·斯莫拉(Alex Smola)曾是亚马逊的招聘候选人之一。他是行业明星,曾供职于雅虎和谷歌。AWS深度学习和人工智能总经理马特·伍德(Matt Wood)表示:“他实际上是深度学习的教父之一。”(谷歌学术搜索上列出了 9 万多篇引用斯莫拉成果的论文。)亚马逊高管甚至不愿向候选人透露他们未来的工作内容。斯莫拉拒绝了亚马逊的邀请,选择去带领卡耐基梅隆大学的一所实验室。
林赛说:“甚至是在我们即将启动之前,还是有许多阻力。他们会说,‘为什么我要去亚马逊工作?我对卖别人东西不感兴趣。’”
亚马逊也有自己的办法。由于该公司从想象中的最终产品去反推,所以蓝图中包括许多尚未发明出来的功能。这些棘手的问题对雄心勃勃的科学家极具吸引力。语音功能需要一定水平的会话式人工智能,包括“唤醒词”(嘿,Alexa!)、监听和解释命令,给出合理的答案。这一切都不存在。
即使亚马逊没有给出任何细节,这个项目也吸引了罗希特·普拉萨德(Rohit Prasad)。普拉萨德是一名受到广泛认可的语音识别科学家,来自波士顿的技术承包商雷神BBN。(亚马逊也因此让他在自己老家组建一支团队。)他认为,亚马逊相关专业能力的缺乏是系统性问题,而不仅仅是小缺陷。他指出:“这里是一片空白。谷歌和微软开发语音技术已经有几年时间。在亚马逊,我们从头开始去开发,去解决困难的问题。”在 2013 年加入之后,他就被分配至Alexa项目。他表示:“设备用硬件来实现,但语音技术在很早就已经起步。”
Echo项目中最棘手的部分在于远距离语音识别。为了解决这个问题,亚马逊被迫涉足新领域,并推动了机器学习整体的发展。远距离语音识别是指在一定距离远处识别语音,这样的语音命令可能被淹没在环境噪声中。挑战之一是,设备不能浪费一丁点时间去思考你究竟说的是什么。它必须把音频内容即时发送至云端,并迅速获得答案,给用户的感觉就是实时对话,而不会出现令人尴尬的冷场。开发机器学习系统,在嘈杂环境中理解并响应用户的语音命令,这需要大量数据,即用户与Echo互动的大量此类案例。当时并不清楚,亚马逊要从何处获得这样的数据。
作为亚马逊设备和服务副总裁的利普表示,远距离技术此前已经被实现,但当时是用在三叉戟潜艇的鼻锥上,研发耗资达到 10 亿美元。亚马逊希望将这种技术集成至一个可以放在厨房台面上的设备中,而价格必须足够便宜,从而吸引用户的购买。普拉萨德表示:“在我的团队中,90%的人都认为这根本做不到。在亚马逊以外,我们也有技术咨询委员会。我们没有告诉他们具体要做什么。但他们总是对我们提起,‘不管做什么,都不要碰远距离识别技术。’”
然而,普拉萨德的经历给他带来了信心。他认为这是可实现的。然而,亚马逊并不具备工业级系统,将机器学习技术应用于产品开发。“我们有少数科学家正在研究深度学习,但我们缺乏基础设施将这些技术应用于生产。”他说。好消息在于,亚马逊已经掌握了全部模块:无与伦比的云计算服务,可运行机器学习算法、安装了大量GPU的数据中心,以及熟悉如何移动数据的工程师。
他的团队利用这些模块开发了平台,而除了用于Echo项目之外,这个平台本身就是宝贵的资产。Alexa高级科学家斯派罗斯·马特索卡斯(Spyros Matsoukas)表示:“当我们在Echo上实现远距离语音识别之后,就发现这里的机会原来有这么大,我们可以将Alexa发展成为语音服务。”他此前曾在雷神BBN与普拉萨德共事,当时的工作包括从事美国国防部高级研究计划局(DARPA)的项目Hub4,利用广播新闻节目和窃听的电话通话来发展语音识别和自然语言理解技术,这对Alexa项目来说也很有用。推动Alexa发展的最直接方式是向第三方开放,让开发者开发基于语音技术的迷你应用,即“技能”,并在Echo平台上运行。然而,这才只是开始。
在Alexa突破Echo音箱的限制之后,亚马逊的人工智能文化开始形成合力。公司内的不同团队都开始意识到,Alexa可以为他们各自项目提供有用的语音服务。普拉萨德表示:“尽管我们的单线程所有权模式已经很成熟,但仍然可以将所有数据和技术融合在一起。”
最开始,亚马逊的其他产品开始集成Alexa:通过对Alexa设备的语音命令,你可以访问亚马逊音乐、Prime视频、获得亚马逊主站的商品推荐信息,以及使用其他服务。随后,这项技术开始推广至亚马逊的其他业务。林赛表示:“一旦我们掌握了最基本的语音能力,就可以将其集成至非Alexa产品,例如Fire TV、语音购物、亚马逊生鲜的Dash按钮,以及AWS。”
在这个过程中,亚马逊内部的人工智能孤岛开始逐渐靠近。
亚马逊转型的另一大关键在于,一旦数百万客户(亚马逊拒绝透露具体数字)开始使用Echo和其他Alexa设备,亚马逊就能掌握丰富的数据。这或许是任何会话式设备所能积累的规模最庞大的数据集。对人才招聘来说,这样的数据集也是极具吸引力的资源。突然之间,亚马逊就成了那些机器学习专家梦寐以求的雇主。去年加入亚马逊的Alexa机器学习副总裁拉威·简恩(Ravi Jain)表示:“Alexa对我的最大吸引力之一在于,一旦你在市场上推出了一款设备,那么就掌握了获得信息反馈的来源。不仅仅是用户反馈,这些实际数据是优化所有一切,尤其是底层平台的基础。”
因此,随着越来越多用户使用Alexa,亚马逊获得的信息不仅能让系统性能变得更好,也有利于自主机器学习工具和平台的加速发展,并成为该公司吸引机器学习科学家的重要武器。
“飞轮”终于开始旋转起来。