DeepMind发表Nature子刊新论文:连接多巴胺与元强化学习的新方法
上周,DeepMind在 Nature 发表论文,用 AI 复现大脑的导航功能。今天,DeepMind 在 Nature Neuroscience 发表新论文,该研究中他们根据神经科学中的多巴胺学习模型的局限,强调了多巴胺在大脑最重要的智能区域即前额叶皮质发挥的整体作用,并据此提出了一种新型的元强化学习证明。DeepMind 期望该研究能推动神经科学自 AI 研究的启发。
近期,AI 系统已经掌握多种视频游戏(例如 Atari 的经典游戏 Breakout 和 Pong)的玩法。虽然其表现令人印象深刻,但 AI 仍然依赖于数千小时的游戏经验才能达到并超越人类玩家的表现。而人类仅需数分钟就可以掌握视频游戏的基本玩法。
对大脑何以能在如此少的经验下学到那么多这一问题的探究推动了元学习(meta-learning)或「学习如何学习」理论的发展。人们认为我们是在两个时间尺度上学习的:短期学习聚焦于学习特定实例,长期学习主要学习抽象技能或用于完成任务的规则。正是该组合帮助我们高效地学习,并在新任务上快速灵活地应用知识。在 AI 系统中重新创建这种元学习结构,即元强化学习(meta-RL),已被证明在推动快速、单次的智能体学习中卓有成效(参见 DeepMind 论文《Learning to reinforcement learn》以及 OpenAI 的相关研究《RL2: Fast Reinforcement Learning via Slow Reinforcement Learning》)。然而,大脑中允许该过程的特定机制目前在神经科学中基本未得到解释。
在 DeepMind 刚发表在 Nature Neuroscience 的新论文《Prefrontal cortex as a meta-reinforcement learning system》中,研究者使用了 AI 研究中开发出来的元强化学习框架来探索大脑中的多巴胺所发挥的帮助学习的作用。多巴胺是人们所熟悉的大脑快乐信号,通常被认为是 AI 强化学习算法中使用的奖励预测误差信号的类比。这些系统学习通过反复试错来行动,这是由奖励推动的。DeepMind 指出多巴胺的作用不仅仅是使用奖励来学习过去动作的价值,它发挥的是整体作用,特别是在前额叶区域,它允许我们高效、快速和灵活地在新任务上学习。
研究者通过虚拟重建神经科学领域中的六个元强化学习实验来测试该理论,每个实验需要一个智能体使用相同的基础原则或技能集(但在某些维度上有所变化)来执行任务。研究者使用标准的深度强化学习技术(代表多巴胺)训练了一个循环神经网络(代表前额叶),然后对比该循环网络的活动动态和神经科学实验之前研究成果的真实数据。循环网络是很好的元学习代理,因为它们可以内化过去的动作和观察,然后在多种任务训练中利用那些经验。
DeepMind 重建的一个实验是 Harlow 实验,这是一个 1940 年代出现的心理测试,用于探索元学习的概念。在原始测试中,向一组猴子展示两个不熟悉的物体并让它们进行选择,只有一个物体能带来食物奖励。这两个物体被展示了 6 次,每次展示中两个物体的左右位置都是随机的,因此猴子必须学会哪个物体能带来食物奖励。然后,它们被展示了两个全新的物体,这时也是只有一个能带来食物奖励。通过该训练过程,猴子发展出了一种策略来选择奖励相关的物体:它学会了在第一次选择时进行随机选择,然后基于奖励反馈选择特定的物体,而不是左边或右边的位置。该实验证明了猴子可以内化任务的基础原则,并学习一种抽象的规则结构,即学会学习。
DeepMind 使用虚拟计算机屏幕和随机选择的图像模拟了一个类似的测试,他们发现「meta-RL agent」的学习方式与 Harlow 实验中的动物非常相似,这种相似性即使在展示完全没见过的全新图像时也会存在。
在 DeepMind 模拟的 Harlow 实验中,智能体必须将关注点移向它认为与奖励相关的目标。
实际上,DeepMind 研究团队发现 meta-RL 智能体能快速学习适应有不同规则和结构的大量任务。而且由于该循环神经网络学习了如何适应多种任务,因此它还学到了如何高效学习的通用法则。
重要的是,研究者发现大多数学习发生在循环网络中,这也支持了 DeepMind 的假设,即多巴胺在元学习过程中扮演的角色比以前认为的更重要。传统观点认为,多巴胺加强前额叶系统中的突触联系,从而强化特定的行为。在 AI 中,这一现象意味着,随着类似多巴胺的奖励信号学习到解决任务的正确方式,它们会调整神经网络中的人工突触权重。然而在一般的实验中,神经网络中的权重是固定的,这意味着权重在学习过程中不能进行调整。
模拟循环网络中编码动作和奖励历史的独立单元。
因此,DeepMind 研究团队提出了 meta-RL 智能体,它能解决并适应新的任务。这种智能体表明类似多巴胺的奖励不仅用于调整权重,它们还传输和编码关于抽象任务和规则结构的重要信息,使得智能体能够更快适应新任务。
长期以来,神经科学家们发现前额叶皮质中有类似的神经激活模式,这种模式适应速度快且灵活,但他们一直找不到一个合理的解释。前额叶皮质不依赖缓慢的突触权重变化来学习规则结构,而是使用在多巴胺中直接编码的基于模型的抽象信息,这个思路为其多功能性提供了更合理的解释。
为了证明导致人工智能元强化学习的关键因素也存在于大脑之中,DeepMind 研究者提出了一个理论。该理论不仅符合多巴胺和前额叶皮质的现有知识,而且也解释了神经科学和心理学的一系列神秘发现。尤其是,该理论揭示了大脑中如何出现结构化的、基于模型的学习,多巴胺本身为什么包含基于模型的信息,以及前额叶皮质的神经元如何适应与学习相关的信号。对人工智能的深入了解可以帮助解释神经科学和心理学的发现,这也强调了领域之间可以互相提供价值。放眼未来,他们期望在强化学习智能体中设计新的学习模型时,可以从特定的脑回路组织中获得许多逆向思维的益处。
论文:Prefrontal cortex as a meta-reinforcement learning system
论文地址:https://www.nature.com/articles/s41593-018-0147-8
预印论文地址:https://www.biorxiv.org/content/biorxiv/early/2018/04/06/295964.full.pdf
摘要:过去 20 年来,对基于奖励学习的神经科学研究已经收敛到了一类规范模型上,其中神经递质多巴胺通过调整神经元之间突触连接的强度在情景、动作和奖励之间建立关联。然而,近期出现的许多研究向这个标准模型提出了挑战。我们现在利用人工智能中的近期进展来引入一种新的基于奖励的学习理论。这里,多巴胺系统训练了另一个大脑区域——前额叶,来将其作为独立的学习系统。这个新的研究视角适应了启发标准模型的那些发现,并且还能很好地处理宽泛的经验观察,为未来的研究提供全新的基础。
上图展示了 meta-RL 在多个 episode 上学习如何高效地学习每一个 episode。其中 a 为智能体架构、b 为 DeepMind 模拟中实现的具体神经网络结构、c 为试验模型在带有伯努利奖励参数的摇臂赌博机问题上的行为、d 为 meta-RL 网络在摇臂赌博机问题上独立训练的性能,最后的 e 为循环神经网络激活模式在独立实验中的进化可视化。