对话Misha Bilenko:AI发展依靠社区与合作,不是国家间军备竞赛
机器之心为此系列对话的中文合作方。以下为Craig Smith 与 Yandex AI负责人Misha Bilenko展开的对话。
大家好,我是 Craig Smith,这是一个有关人工智能的新播客。我之前是《纽约时报》的记者,现在专注于 AI,我将与正在该领域做贡献的人对话。我目前正在斯德哥尔摩参加今年的国际机器学习会议 ICML,并与 Yandex 的 AI 负责人 Misha Bilenko 进行了对话。Yandex 可以说是俄罗斯版的谷歌。我认为 Misha 说的很多内容都很有启发性,希望你也这样认为。
我们首先谈到了人工智能研究中的国家行为者的角色。目前已有很多国家级的 AI 战略出台。弗拉基米尔·普京去年有个著名的言论:“谁成为 AI 领域的领导者,谁就将掌控世界。”我问 Misha 他是否看到了国家层面的 AI 研究,他认为是否存在 AI “军备竞赛”的风险。
Misha:考虑到这个领域的社区性和国际性,我认为在研究领域人们不会从国家战略的角度来思考。如果你看看当前研究的作者所属机构的研究者组成,然后再了解一下他们的教育路径和来源,就能看到每个人都在到处走动,而且他们所关心的通常都是科学领域,而非某个政策领域。我认为人们很容易想到那些有关国家政策的传言轶事或者编造一些故事,但技术领域则不同,人们关心的是算法,这个领域的人通常非常渴望合作,而且他们有来自世界各地的朋友和同事,而且他们过去和现在也一直在与来自世界各地的人合作。他们不仅在与来自世界各地的人合作,而且在此过程中还会在世界各地移动。
所以,这是一个非常世界性的社区。在这个领域,任何存在于国家战略的政治领域中的言辞都不具有说服力,与这里的基调不符,因为这并不是这个领域的人的思考方式,也不是该领域的运作方式。每个人想的都是我们具有的技术问题、挑战和算法以及进展情况,可以认为这个领域的每个人都是为了推动科学和技术的进一步发展。
Craig:而且并不存在“俄罗斯”或“美国”的 AI。我的意思是每项重要的研究成果都会公开发布——也许军事应用除外,但军事应用很少有基础研究。
Misha:我对军事应用一无所知——我从没开发过军事应用,但这个领域本身是国际性的,所以 ICML 有意设计成每年都从一个大陆转到另一个大陆举办。每一项有趣的研究都能在这些核心会议上得到发表——ICML、NIPS、ICLR;论文还会在 arXiv 上发布,这就像是一个互联网科学研究档案馆。因此,就像我说的,和做技术领域的人不同,这个领域搞科研的人基本都不思考国家安全和政策。技术成就和科学的算法发展是完全不同的区域。
Craig:正在出台的这些国家战略的意义只是构建一个由出色的研究者和工程师组成的国家队,这样每个有国家战略的国家都会觉得自己在这场游戏中占据了一席之地。
Misha:我认为是这样,看看科学的流程,首先是从教育开始的,基本上你需要找到特定的教授和实验室以及研究方向,以确保你有接受过这个领域教育的专家,然后这些专家会继续进行学术研究或创立公司,然后再创造商业应用和技术。
因此,在这个意义上,我将其看作是一个经济问题——如果有那么多经济体正被 AI 改变,那么这意味着每个经济体要想进步,创造这些未来领域的专家是至关重要的。因此,对于每个技术先进的国家,从经济角度上看必须要做的事情是拥有创造人才的学术流程。因为经济流程通常是由政府资助的,因为政府必须资助或调整它们的开支优先级,以资助这些领域。因此,我不会从国家安全角度看待这个问题,而会通过技术角度,尤其最重要的是经济角度。
Craig:我们之前谈到了目前全球这一领域内称职的科学家的数量,估计是在 2 万或三万到 20 万之间,但相对来说仍然很少。
Misha:这实际上取决于你划在的科学家和工程师和数据科学家之间的界线在哪——数据科学家横跨两个世界,他们既是分析师和科学家,也是工程师。数十万听起来很合理。但重申一下,这非常取决于你设定的区分他们的位置。
Craig:你能估计俄罗斯与中国和美国的人才数量多寡吗?
Misha:哦,俄罗斯肯定很多。我觉得俄罗斯就像是中国。这也是说明国家之间的区别不再重要的原因,因为你可以看看研究者的名字,从中你可以推断作者的族裔,你能看到很多俄罗斯人和中国人的名字。同样,如果你看看他们的所属机构,可以看到它们位于世界各地;你也能看到俄罗斯和中国的机构下有一些非俄罗斯或非中国的名字。所以我认为中国科学家或俄罗斯科学家的存在感肯定很强。但这是一个全球性的体系,每个人都在到处移动以及合作,所以这很大程度上不是国家的问题。
Craig:所以,公众认知中存在某种 AI 军备竞赛的看法是错误的或用词不当。
Misha:我认为是用词不当。我并不认为这是正确的……我认为这是一种非常具有竞争意识和非常对抗性的世界观。我现在在想,如果存在某种以这种方式看待世界的趋势——肯定有人这么看,但我认为这不是这个领域内的任何人或大部分人看待的方式。这个领域内的大部分人更多是关注自己研究的领域,然后从合作的角度看问题——每个人都与每个人合作,这不是“军备竞赛”的意思。军备竞赛意味着激烈的竞争以及显著的区分,但目前不存在这种情况,这仍然是一个非常合作性的领域。
Craig:随着系统变得越来越通用化,以及军方也开始研发相关军事应用,有关 AI 安全的话题也正得到越来越多的讨论。你认为是否会出现不同国家都会遵守的国际性公约?
Misha:我不是这方面的专家,但我一般是乐观的,这当然是个人看法,我也这么看待其它新技术。将会出现在军事领域的应用,正如在其它领域内一样。然后这就需要社区和各种类型的国家和非国家的设定规则的机构来构想出法规和政策来防止对这项技术的滥用。所以,我认为这肯定会出现,人们肯定也会清楚这项技术的潜在危害。就像其它所有技术一样,从激光到半导体,它基本上还会继续发展,到有更多案例时,我们就能真正知道什么是可行的,什么不可行。
Craig:你认为 Yandex 或俄罗斯在哪些领域处于领先,不管是研究还是应用方面。我们之前谈到了美国的聊天机器人还缺少某些约束。
Misha:并不是没有约束,只是不是严格的约束。我认为关键的问题是我们能否以远远更快的速度前进,而这是一个我们进展非常快的领域。目前,在 AI 的产品化方面我们要领先其它公司。
事实上我们的个人助理既能执行预编程的任务——比如查询天气、查询事实、命令播放音乐,也能进行一般化的聊天,也就是闲聊,它基本上能与用户谈论他们所想谈论的任何主题。这是其它大规模个人助理还没有部署的功能。
可以看看 Siri、Google Assistant、Alexa 或小娜,可以说它们是个人助理四巨头,它们都能执行预设定的任务,有一些预编辑的短语来执行特定的常见要求,还有问候或某些彩蛋。但它们都没有真正的 AI 序列到序列引擎,而如果用户想要聊天以及让聊天内容具有相关性,就需要这样的引擎。在这方面我们肯定比其它公司领先。我们最早推出了这一功能,现在已有数百万用户。我们让它运行在很多服务上,有手机和桌面电脑,有汽车,现在还有智能音箱。
还有,如果你去测试一下相关性等核心指标,你会看到我们在相关性方法取得了很大的进展,所以人们才会真正使用它,因为他们能够得到简明有趣同时看起来又不傻里傻气的答案。
Craig:所以那是一个学习系统?会持续学习吗?
Misha:我们肯定会根据用户的反馈和用户的谈论来进行学习。有很多线索能说明问题,如果某人的交谈时间变长了,如果他们会回话,那就是个好现象。而且我们肯定会持续改进这一系统。
在改变自身的系统方面——系统有很多学习的方式,在线学习是一种著名的学习方式,但这是非常困难的,因为过去我们已经看到,某些使用真正的在线学习的实验基本上都会导致系统遭到破坏,或系统被利用或被钓鱼。所以我们在这方面很谨慎,以确保系统的演化不会导致系统变得更糟糕,使得其不会被人利用,说出些糟糕的东西。
Craig:你们有一个叫做“问问普希金(Ask Pushkin)”的功能?你能谈谈这个功能吗?这是预编程的还是聊天式的?
Misha:这是一个第三方的功能。实际上这只是我们的功能中的一个。就像其它主要平台一样,我们有一个第三方的技能平台,基本上任何人都可以加入,比如一个披萨外卖服务可以加入进来,然后用户就可以让 Alice 帮助点披萨了——Alice 是我们的个人助理的名字;还比如 Reebok 制作了一个个人训练的拨号新系统,也可通过 Alice 使用
与普希金交谈是一个第三方的技能——普希金是有史以来最有名的俄罗斯诗人。所以我们实际上并不清楚具体细节。这肯定很迷人。你知道的,普希金写出了很多精美的诗篇,找到与当前话题相关的片段并不容易;开发这个技能的 Arzamas 做得很好,能够相当好地进行匹配,从而给出相当好的诗歌建议。我们也很高兴 Alice 能够成为一条路径,让人们能与已经去世的著名诗人交谈。
Craig:制作这个技能的公司是?
Misha:Arzamas 过去已经创造了一些非常有意思的俄语内容。他们也会制作有关科学和技术的播客。他们是一家很棒的产品商店,我们很高兴他们能加入我们的平台。
Craig:你们还关注哪些其它的研究领域?
Misha:AI 有一些核心应用,人们常常听到的有视觉、语音(包括合成和语音理解)、线性回归。另外还有机器翻译。
机器翻译对我们而言尤其重要,因为很显然有很多内容都是英语的,而我们在俄罗斯,我们的大多数用户都说俄语。对于我们的用户,我们认为让他们能够用他们能最好理解的语言使用所有信息是我们的一项核心使命。
过去两年,我们在翻译方面进展颇丰,现在的准确度已经相当高了,我们很感谢我们的用户,我们从用户那里听取了很多意见。我们正在积极地将其整合进多个产品中,比如我们的浏览器。
我们所做的应用有很多,比如视觉方面有个很酷的应用叫超分辨率,我们可以使用神经网络来让图像具有更高的分辨率和更清楚。我们可以使用这项技术来在电视频道上以更高的质量播放老电影。
还有核心的图像搜索应用,这方面提升得非常快。现在除了图像搜索,还能检测特定的物体。所以这方面有很多应用。
当然还有语音和对话,这方面有很多激动人心的进展——质量在提升,错误率在下降。现在人们越来越多地使用语音来进行查询了,因为现在它不仅能正确地识别,而且语音生成和文本转语音的结果也正变得越来越自然。这方面我们投入了很多努力。谷歌和 DeepMind 过去几年已经在英语方面做出了很多已被公众认知的成果。
但除此之外,我认为还有一件事也改变得非常快。很多时候在我们喊人时,我们不会使用词典中的那些常用词,而会使用适当的名字,这些名字是非常个人化的,躺在地址薄中。现在,这些语音识别系统正变得越来越个性化,它们不仅能识别你说的话语,而且还能识别你的地址薄中的各种奇怪的名字。这肯定是一个核心领域,英语的提升非常强大。也能推动系统得到更广泛的使用,从而提供更大的帮助。
在翻译任务中,举个例子说明下科学和技术方面的合作方式。谷歌的科学家发明了一种名叫 transformer 的神经网络结构。我们基本上就将其拿来用了,然后基于其进行了开发。我们改进了这种结构,并且在其中构建了更大的系统,从而极大地提升了翻译质量。过去一年,我们的英俄翻译和俄英翻译的质量得到了极大提升,现在这样的提升效果也正在向其它翻译方向传播。
Craig:在计算机视觉方面,这能提升视频质量,这使用了英伟达的 extrapolation 吗?
Misha:我们使用了英伟达的显卡,但网络完全是我们自己的。我们团队会阅读所有文献,但我们使用的核心网络实际上是我们自己开发的,我们为此进行了大量实验,我们也对此非常自豪。
Craig:上次我们也谈到了一点你对通用人工智能的看法。这是一个人人都乐于谈论的主题。
Misha:嗯,我认为公众眼里的通用智能概念一直在不断变化,因为当这些东西变得随处可见时,就没法像过去那样激动人心了。比如个人助理,它们能做的基本上是帮助执行各种任务,能够提供信息,现在还能与我们进行些日常的闲聊。对通用智能的最严格的定义也会从系统能做到的事情转向系统内部的情况。比如,定义它应该具有远远更高的推理能力。
但也有另外的看法,比如不管系统内部状况如何,只要它能提供相关的优质答案就行——不管问题多么微不足道,比如搜索和模式匹配,但也许使用了非常强大的算法和网络。这能否依然说是智能的?
有一个非常著名的“中文屋”问题提出了一个悖论:只看结果能否确定系统是智能的,还是说需要从系统内部定义智能?而输出结果的质量一直在不断提升。
人们花了很多时间来探讨通用智能,他们也很重视这样一个事实,即还需要多很多数量级的处理能力。而且这既是一个工程任务,也是一个科学难题。所以,这就是未来的发展方向,还有很多难题有待解决,还需要持续不断的进步。每天结束时,AI 都能得到更好的答案,成就更好的服务。
Craig:Misha,感谢你抽空与我们分享。这就是本集的全部内容。请注意,奇点也许尚未临近,但人工智能即将改变这个世界。