深度学习研究的新进展:教授人工智能像我们的大脑一样进行导航
由于我们是婴儿,因此我们培养了一种内在的能力,可以在不依赖父母或任何第三方教师的情况下,在任意复杂的环境中行走。记住路径、采取捷径或通过特定地标识别位置是认知能力,这些能力对我们来说是非常自然的,所以我们几乎没有仔细想。
这些认知特征也不是人类专有的,它存在于大多数哺乳动物物种中。然而,空间导航在人工智能(AI)程序中仍然具有难以置信的挑战性。DeepMind团队最近的一项研究提出了一种新技术,使用来自神经科学研究的一些新思想,实现AI代理中的空间导航。
直到最近,从神经科学的角度来看,空间导航仍然是一个谜。我们大脑的具体能力是什么,可以让人类和其他哺乳动物从一个地方走向另一个地方,我们是如何绕过障碍,甚至找到捷径?这个难题在2005年得到了部分解决,当时神经科学家May-Britt Moser和Edvard Moser发现大脑的某些部分包括神经元,当动物探索他们的环境时,它们以惊人的正六边形模式发射。
这种点阵被认为是我们大脑内部的坐标系统。该研究确定了三种与导航能力相关的脑细胞:位置细胞记忆过去的位置,头部方向的细胞感测运动和方向,网格单元将空间环境划分为类似于地图上的坐标系的蜂窝六角形网格。这一发现非常具有开创性,因此该团队获得了2014年诺贝尔生理学或医学奖,以揭示空间的认知表征如何发挥作用。十三年后,DeepMind团队正在将网格单元的一些想法应用于AI程序中的空间导航。
题为“在人造代理中使用类似网格的表示的基于矢量的导航”,本文提出了一种基于网格单元研究的技术,该技术能够在AI代理中实现基于矢量的导航。在这项研究中,研究人员使用真实世界的数据并模拟大量草食性啮齿动物的运动轨迹,然后建立模型来学习这些运动。这些模型基于具有长期短期记忆(LSTM)算法的递归神经网络(RNN),记忆了代理的先前位置、方向和速度,然后将这些算法与历史信息结合起来做出下一步。结果显示人工智能代理的导航模式与动物的导航模式之间有惊人的相似之处。
该研究的下一步是将最初的“网格网络”与更大的网络架构相结合,以创建一个AI代理,该代理可以通过深度强化学习进行训练,以在具有挑战性的虚拟现实游戏环境中导航到目标。该过程的这一步旨在验证网格单元可以支持基于矢量的导航的理论。令人震惊的是,人工智能代理在超人类级别上执行,超出了专业游戏玩家的能力,展现了通常与动物相关的灵活导航类型,并在可用时采用新颖的路线和捷径。
为了量化AI代理的基于矢量的导航能力中的相关性网格单元,DeepMind团队使用“via negativa”方法并且使神经网络中屏蔽了网格单元。此时,代理商的导航能力进一步受损,关键指标(如到达目标的距离和方向)的表示变得不准确。
DeepMind提出的网格单元导航架构可以对包括自动驾驶车辆在内的各种行业的机器人系统产生深远影响。这项研究是DeepMind从前沿神经科学研究中汲取灵感,推动人工智能发展的另一个例子。