DeepMind的强化学习:从无监督辅助到情境控制

机器之心报道


DeepMind论文提出神经情景控制:可显著提速深度强化学习

DeepMind的强化学习:从无监督辅助到情境控制

深度强化学习方法能在广泛的环境中实现超越人类的表现。这样的方法是非常低效的,要想实现合理程度的表现,所需的数据量往往比人类所需的多几个数量级。我们提出了神经情景控制(Neural Episodic Control/NEC):一种能够快速吸收新经验和基于此采取行动的深度强化学习代理。我们的代理使用了一种价值函数的半值表示(semi-tabular representation):一种过去经验的缓冲器,其包含了该价值函数的缓慢变化的状态表示和快速更新的估计。我们通过在广泛环境中的研究表明:我们的代理的学习速度可以显著快于当前最佳的通用深度强化学习代理。

神经情景控制(Neural Episodic Control)

我们的代理由三个组分构成:一个处理像素图像的卷积神经网络,一个记忆模块集合(每个动作一个模块)和一个将动作记忆的读出转换成 Q(s, a) 值的最终的网络。这里的卷积神经网络使用了和 DQN (Mnih et al., 2015) 所使用的一样的架构。

DeepMind的强化学习:从无监督辅助到情境控制

算法 1:神经情景控制(Neural Episodic Control)

DeepMind的强化学习:从无监督辅助到情境控制

图 1:在一个可微分神经词典(Differentiable Neural Dictionary)上的操作的图示

DeepMind的强化学习:从无监督辅助到情境控制

图 2:对单个动作 a 的情景记忆模块(episodic memory module)的架构。表示当前状态的像素进入通过左下方的一个卷积神经网络,然后在右上方输出 Q(s, a) 的一个估计。梯度会流过这整个架构。

DeepMind的强化学习:从无监督辅助到情境控制

图 3~图 8:不同算法在不同游戏上的学习曲线,上图为不同算法在 Ms. Pac-Man 上的学习曲线


论文:使用无监督辅助任务的强化学习(Reinforcement Learning with Unsupervised Auxiliary Tasks)

DeepMind的强化学习:从无监督辅助到情境控制

深度强化学习代理已经通过直接最大化累积奖励而实现了当前最佳的表现。但是,环境包含了远远更多类型的可能的训练信号。在这篇论文中,我们介绍一种通过强化学习也能同时最大化许多其它伪奖励函数(pseudo-reward functions)的代理。所有这些任务都共享了一个共同的表征,就像无监督学习一样,这种表征可以继续在有外部奖励(extrinsic rewards)存在的情况下发展。我们还引入了一种全新的机制以将这种表征的重心放到外部奖励上,从而让学习可以快速适应该实际任务中最相关的方面。在 Atari 游戏上,我们的代理的表现显著超越了之前的最佳表现,平均达到了人类专家表现的 880%;并且在一个有挑战性的第一人称三维 Labyrinth 任务合集中实现了平均 10 倍的学习加速和平均 87% 的人类专家在 Labyrinth 上的表现。

相关推荐