Google开源TensorFlow强化学习框架!
点击上方关注,All in AI中国
今天,谷歌宣布开源基于 TensorFlow 的强化学习框架——Dopamine。
GitHub repo:https://github.com/google/dopamine
强化学习是一种人工智能(AI)技术,它使用奖励(或惩罚)来驱动agent朝着特定目标前进,比如之前大火的Alpha Go击败人类顶尖围棋选手,还有在 Dota2 对战人类职业玩家的Open AI Five。同时,强化学习也是DeepMind 的深度Q 网络(DQN)的核心部分,可以在多个workers 中分配学习,例如,在Atari 2600游戏中实现“超人”性能。麻烦的是,强化学习框架需要时间来掌握一个目标,往往是不灵活的,也不够稳定。
这就是谷歌提出替代方案的原因:基于TensorFlow的开源强化学习框架——Dopamine,从今天开始,它可以从Github获得。
(https://github.com/google/dopamine/tree/master/docs#downloads)
谷歌研究人员表示,他们开源的这个 TensorFlow 强化学习框架强调三点:灵活、稳定和可重复性。
受到主要组件之一大脑中奖励动机行为行为的启发,以及反映神经科学和强化学习的研究之间的联系,这个平台的目的是使推测性研究推动根本性的发现,此版本还包括一组阐明如何使用整个框架的colabs。
易用性
为此,它包括了一套精心编写的代码(15个Python文件),专注于Arcade学习环境(一个用视频游戏评估AI技术的平台)以及四种不同的机器学习模型:上述提到的深度Q 网络(DQN); C51; Rainbow agent的一个简化版本; Implicit Quantile Network agent。清晰和简洁是这个框架设计中的两个关键考虑因素。
可重复性
为了实现强化学习的可重复性,代码在Arcade学习环境支持的60个游戏中提供完整的测试覆盖率和训练数据(采用JSON和Python pickle格式),并遵循标准化结果以进行实证评估的最佳实践。
基准测试
对于新的研究者来说,对自己的想法进行快速的基准测试是非常重要的。谷歌提供四个智能体的完整训练数据,包括ALE 支持的60 个游戏,格式为Python pickle 文件(对于使用谷歌框架训练的智能体)和JSON 数据文件(用于对比其他框架训练的智能体)。谷歌还提供了一个网站,研究者可以使用该网站对所有提供智能体在所有60 个游戏中的训练运行进行快速可视化。
谷歌的4 个智能体在Seaquest 上的训练运行(Seaquest 是ALE 支持的Atari
除此之外,谷歌还推出了一个网站,允许开发人员将多个训练中智能体的运行情况快速可视化。它还提供经过训练的模型、原始统计日志和TensorFlow event files,用于TensorBoard动态图的绘制,TensorBoard是一个web应用可视化套件。
“我们的希望是,我们的框架的灵活性和易用性将使研究人员能够尝试新的思想,无论是渐进的还是激进的。”作者Bellemare和Castro表示,“我们已经积极地将它用于我们的研究,而且发现它能够使我们能够灵活地快速迭代许多想法。我们很高兴看到更多的社区可以应用这一框架。”