谷歌DeepMind让电脑学“做梦”：提高人工智能学习能力

82632713

2016-11-18

安科网讯北京时间11月18日上午消息，谷歌DeepMind人工智能部门的研究人员周四在网上发表论文称，他们已经在机器学习系统的速度和性能上实现了跨越，部分原因在于这套系统整合了一种技术，模拟了动物做梦的方式。

该论文解释道DeepMind的这套名为Unreal的新系统完成3D迷宫游戏《Labyrinth》的速度，比现有的一流人工智能软件还快10倍，甚至可以达到顶尖人类玩家87%的速度。

“我们的训练速度大幅提升，需要的训练经验也大幅减少，所以数据效率大大提高。”DeepMind研究员麦克斯·加德伯格（Max Jaderberg）和沃罗戴米尔·米涅（Volodymyr Mnih）写道。他们表示，由于缩短了训练时间，Ureal可以让DeepMind研究人员更快地尝试新的想法。

DeepMind的人工智能产品已经在视频游戏中取得了不错的成绩，尤其是雅达利的《突出重围》。

苹果迷宫

《Labyrinth》是DeepMind开发的一种游戏环境，在一定程度上参考了热门视频游戏《Quake》的设计风格。在该游戏中，机器需要寻找走出迷宫的路径，并通过收集苹果来获得分数。

这种风格的游戏是人工智能的重要研究领域，因为这类游戏中得分并获得正反馈的频率低于其他类型的游戏。另外，无论任何时候，人工智能软件只能在一定程度上了解迷宫的布局。

研究人员实现突破的一种方法是让Unreal重放之前在游戏中做出的尝试，然后集中精力研究在此前获得分数的情况。他们在论文中表示，这相当于让动物更加频繁地梦到正面奖励事件和负面奖励事件。

研究人员还会让系统同时重视几个不同的标准，而不是单纯关注游戏的整体分数，以此加快学习速度。其中之一就是如何通过各种动作改变视觉环境。“重点是学习你的动作如何影响你所看到的东西。”加德伯格和米涅说。

他们表示，这也类似于新生儿学习通过控制环境来获得回报——比如越来越多地曝光在令他们愉悦的视觉刺激中，例如闪亮而鲜艳的物体。

加德伯格和米涅表示，目前就谈论Unreal或类似的系统在现实世界中的应用还为时尚早。

游戏冠军

从国际象棋到美国电视智力竞赛《危险边缘》，在类似的游戏中获胜一直都被视作人工智能的重要里程碑。DeepMind也在今年早些时候取得了类似的突破：在与韩国围棋国手李世石的对战中将其击败。

DeepMind本月早些时候宣布开发了一个接口，可以利用机器学习软件参与《星际争霸II》游戏。DeepMind研究人员奥里奥尔·温亚尔斯（Orio Vinyals）表示，《星际争霸》被视作人工智能与人类对战的下一个目标，因为该游戏的很多方面都与现实世界一样混乱。Unreal有望帮助DeepMind掌握这些游戏的机制。

提升性能

DeepMind的Unreal在57种老式雅达利游戏中的学习速度和得分都超过了该公司现有的软件。研究人员称，Unreal玩这些游戏时的表现平均比顶尖人类选手高出880%，比DeepMind老式人工智能系统高出853%。

但在《Montezuma’s Revenge》等最复杂的雅达利游戏中，这套新系统也实现了更大的飞跃。他们表示，老系统在该游戏中的得分是0，而Ureal则拿到了3000分，超过人类顶尖选手的最好成绩的一半。（书聿）

人工智能 deepmind 谷歌做梦雅达利