好奇心驱动人工智能:UC Berkeley提出自监督预测算法

选自arXiv

作者:Deepak Pathak等

机器之心编译

参与:李泽南

无监督学习一直被认为是让人工智能在真实世界中有效工作的研究方向,此前大多数研究都会在训练时为人工智能加入奖励机制以明确目标。UC Berkeley 最近发表的论文提出了一种更为先进的方式,研究人员称这种「好奇心驱动」的人工智能算法不需要奖励机制就能学会如何进行《超级马里奥》和《Doom》两种游戏,并能达到超越以前方法的表现。该论文已被将于 8 月 6 日召开的 ICML 2017 大会接收。

  • 论文链接:https://arxiv.org/abs/1705.05363

  • 展示页:https://pathak22.github.io/noreward-rl/

  • 代码 GitHub:https://github.com/pathak22/noreward-rl

论文:Curiosity-driven Exploration by Self-supervised Prediction

好奇心驱动人工智能:UC Berkeley提出自监督预测算法

在很多现实世界场景中,对于外部人工智能代理(agent)完成任务的奖励是稀疏的,有时甚至完全不存在。在这种情况下,好奇心可以成为人工智能算法内在的回报信号,让代理可以探索环境并学习可能「终身受用」的技能。在本研究中,我们将好奇心构型,作为人工智能代理在动态环境中自我监督学习时预测自身行动结果造成的错误。我们的方法适用于图像这样的高维连续状态空间,跳过直接预测图像困难的问题,也大量忽略了不能影响代理的环境情况。我们提出的方法在两种环境中进行了评估:VizDoom(一种基于视频游戏《Doom》的人工智能研究平台)和《超级马里奥兄弟》。评估主要研究三个方面:1. 稀疏的外部奖励,这样好奇心将在达到目标的过程中占据重要位置;2. 没有外部奖励的探索,在这种情况下好奇心会推动代理进行更有效的探索;3. 全新的环境(如一个游戏的新关卡),在这种情况下此前获得的经验可以帮助人工智能快速上手。

好奇心驱动人工智能:UC Berkeley提出自监督预测算法

图 1.UC Berkeley 的研究人员提出了内部好奇心构型

好奇心可以帮助人工智能代理在缺乏奖励的情况下探索环境。研究人员提出的内在模型(ICM)是与代理策略共同学习的,甚至不需要任何环境中的奖励。上图为模型结构解读。

好奇心驱动人工智能:UC Berkeley提出自监督预测算法

图 3. 人工智能在 VizDoom 的 3D 环境中获得的输入:(a)常规 3D 导航情形;(b)在输入中加入噪音。

好奇心驱动人工智能:UC Berkeley提出自监督预测算法

图 4. VizDoom 的 3D 环境地图

图 4 中,(a)对于泛化实验,地图中的环境只进行了无环境奖励的好奇心预训练。S 点代表起始点。(b)在 VizDoom 中的测试地图,绿星表示目标位置,蓝点表示代理在「密集」奖励例子中生成的 17 个地点。Room 13 和 17 是代理在「稀疏」和「非常稀疏」例子中起始的位置。注意:测试和训练地图的条件略有不同。

好奇心驱动人工智能:UC Berkeley提出自监督预测算法

图 5. 以没有好奇心机制的 A3C 人工智能代理(蓝线)作为基准,对比有图像空间好奇心 ICM 的代理(绿色)和 A3C+ICM 代理(橙色)。

任务难度从左向右逐渐增加,初始点和目标位置越来越远,探索也变得越来越困难:「密集」、「稀疏」到「非常稀疏」奖励。结果表明,对于 A3C 而言,后两个任务探索难度极高,而有好奇心的 A3C 能在所有情况下获得很好的表现;完全基于好奇心的方法在前两个任务中能够完成任务,而在「非常稀疏」条件下失败。

好奇心驱动人工智能:UC Berkeley提出自监督预测算法

图 7. 图中显示了在探索环境中人工智能代理的运行方式。红色箭头表示代理的起始点和方向。每个代理在 2100 步以内探索过的房间都被涂了颜色。前三个结果(绿色)是代理在只有内部好奇心驱动的情况下的完成情况。后两个则是随机探索的结果。结果表明,受好奇心内部奖励驱动的探索可以发现更多房间。

好奇心驱动人工智能:UC Berkeley提出自监督预测算法

UC Berkeley 的研究提出了一种生成好奇心驱动内部奖励信号的机制,并将其拓展到了高位的图像输入任务中。在实验中,这种新方法明显优于此前的 A3C 基准。在没有任何外部奖励的环境中,新的人工智能代理可以学会沿着走廊和房间移动的探索行为。在超级马里奥 Level-1 中,代理在无奖励的情况下完成了超过 30% 的进度。无法超过 38% 的原因之一是此处有一个坑,需要 15-20 个特定顺序按键操作才能通过,如果人工智能代理不按照这个操作进行,它将落入坑中,无法获得更多的环境信息。因此,它不会收到任何有关之后内容的梯度信息。

研究人员认为,未来研究的一个方向是让人工智能将学习到的探索行为/技能作为原始行动/低级策略在更为复杂的分层系统中使用。例如让 VizDoom 中的代理学会沿着走廊移动,而不是不断撞墙,这或许可以为机器人导航任务带来启发。

相关推荐