你需要了解的有关Google新PlaNet强化学习网络的所有信息!
Google AI的PlaNet AI对强化学习研究的意义以及迁移学习如何发挥关键作用
如今,迁移学习在机器学习社区中风靡一时。
迁移学习是Google、Salesforce、IBM和Azure提供的许多托管AutoML服务的基础。它现在在最新的NLP研究中占据突出地位 - 出现在谷歌的变形金刚双向编码器表示(BERT)模型以及Sebastian Ruder和Jeremy Howard的用于文本分类的通用语言模型微调(ULMFIT)中。
正如Sebastian在他的博客文章中所写的,'NLP的ImageNet时刻已经到来':
这些工作之所以成为头条新闻,是因为它们证明了预先训练的语言模型可以用于在广泛的NLP任务中实现最先进的结果。这些方法预示着一个分水岭时刻的到来:它们对NLP的广泛影响可能与预先训练的ImageNet模型对计算机视觉的影响相同。
我们也开始看到可以使用跨域迁移学习处理多个任务的神经网络示例。 Paras Chopra为一个PyTorch网络提供了一个很好的教程,可以根据文本描述进行图像搜索,搜索类似的图像和文字,并为图像写下标题(链接到他下面的帖子)。
目前的主要问题是:迁移学习能否在强化学习中有应用?
与其他机器学习方法相比,深度强化学习因对数据的渴求而受到称赞,其学习过程中存在不稳定性(参见Deepmind关于RL与神经网络的论文),在性能方面也比较落后。我们已经看到应用强化学习的主要领域和用例是游戏或机器人,这也就表明,这就是可以产生大量模拟数据的场景。
与此同时,许多人认为强化学习仍然是实现人工智能(AGI)最可行的方法。然而,强化学习不断地与泛化到不同环境中的许多任务的能力相冲突——这是智能的一个关键属性。
毕竟,学习不是一件容易的事。当这些环境既具有高维感官输入,又不存在进步、奖励或成功的概念,或存在极其延迟的概念时,这些强化学习代理必须处理并获得对其环境的有效表征。最重要的是,他们必须使用这些信息将过去的经验概括为新的情况。
到目前为止,强化学习技术和研究主要集中在掌握个人任务上。我很有兴趣看迁移学习是否有助于强化学习研究达到普遍性——所以当Google AI团队今年早些时候发布深度规划网络(PlaNet)代理时,我感到非常兴奋。在PlaNet背后
对于该项目,PlaNet代理的任务是“规划”一系列动作,以实现一个目标,比如平衡杆,教导虚拟实体(人或猎豹)走路,或通过在特定位置击打它来保持盒子旋转。
深度规划网络(PlaNet)代理必须执行的六个任务的概述
从最初的Google AI博客文章介绍PlaNet,这里有六个任务(加上与该任务相关的挑战):
- Cartpole Balance:从平衡位置开始,代理必须快速识别以保持杆位向上
- Cartpole Swingup:使用固定的摄像头,因此推车可以移出视线到看不见的地方。因此,代理必须在多个帧上吸收和记住信息。
- Finger Spin:需要预测两个独立的对象,以及它们之间的交互。
- Cheetah Run:包括难以准确预测的地面接触,需要一个能预测多种可能未来的模型。
- Cup Catch:只有在球被抓住时才会提供稀疏的奖励信号。这就需要对未来做出很准确的预测,以规划精确的行动序列。
- Walker Walk:模拟机器人躺在地上开始,必须先学会站起来然后走路。
PlaNet需要实现这些任务之间的一些共同目标:
- 代理需要预测各种可能的未来(为了稳健的计划)
- 代理需要根据最近操作的结果/奖励更新计划
- 代理需要在很多时间步骤中保留信息
那么Google AI团队是如何实现这些目标的呢?
PlaNet AI ......其余的?
PlaNet AI的三种不同的方式都标志着与传统强化学习的背离:
- 使用潜在动力学模型学习--PPNet从一系列隐藏或潜在状态而不是图像中学习,以预测潜在状态向前发展。
- 基于模型的规划 - PlaNet在没有策略网络的情况下工作,它是基于持续规划做出决策。
- 迁移学习 - Google AI团队训练了一个PlaNet代理,以解决所有六种不同的任务。
让我们深入研究这些差异化中的每一个,看看它们如何影响模型性能。
#1潜在动力学模型
作者在这里的主要决定是使用紧凑的潜在状态还是来自环境的原始感官输入。
这里有一些权衡。使用紧凑的潜在空间意味着额外的难度提升,因为现在代理人不仅必须学会如何打败游戏,还必须建立对游戏中视觉概念的理解 - 这种编码和图像解码需要大量计算。
使用紧凑潜状态空间的关键好处是它允许代理学习更多抽象表示,如对象的位置和速度,并避免生成图像。这意味着实际规划要快得多,因为代理只需要预测未来的奖励而不是预测图像或场景。
潜在动力学模型现在更常用,因为研究人员认为“同时训练潜在动力学模型,并结合提供的奖励,将产生对与奖励信号相关的变异因素敏感的潜在嵌入,并且对模拟的外来因素不敏感训练期间使用的环境。”
学习潜在动力学模型 - 编码器网络(灰色梯形)不是直接使用输入图像,而是将图像信息压缩为隐藏状态(绿色圆圈)。然后使用这些隐藏状态来预测未来图像(蓝色梯形)和奖励(蓝色矩形)。
参考了这篇优秀论文“关于使用深度自动编码器进行高效嵌入式强化学习”,他们指出:
在自主嵌入式系统中,减少现实世界中采取的行动量和学习政策所需的精力通常是至关重要的。从高维图像表示中训练强化学习代理可能非常昂贵且耗时。自动编码器是深度神经网络,用于将像素化图像等高维数据压缩成小的潜在表示的深度神经网络。
#2基于模型的计划与无模型
来自Jonathan Hui的精彩图表显示了强化学习方法的范围
基于模型的强化学习试图让代理人了解世界的一般行为。这不是直接将观察映射到行动,而是允许代理人明确地提前计划,通过“想象”他们的长期结果来更仔细地选择操作。采用基于模型的方法的好处是它的示例效率更高——这意味着它不会从头开始学习每个新任务。
查看无模型和基于模型的强化学习之间差异的一种方法是查看我们是在优化最大奖励还是最低成本(无模型=最大奖励,而基于模型=最低成本)。
像使用Policy Gradients这样的无模型强化学习技术可以是强力解决方案,最终发现正确的行为并将其内化到策略中。政策梯度实际上必须经历积极的奖励,并经常经历它,以便最终并缓慢地将政策参数转向重复给予高回报的动作。
一个有趣的注意事项是任务类型如何影响您可能选择采用的方法。在Andrej Kaparthy的精彩帖子《深度强化学习:像素中的Pong》中,他描述了Policy Gradients可以击败人类的游戏/任务:
“在许多游戏中,政策梯度很容易击败人类。特别是,任何需要精确游戏、快速反应和不太长期规划的频繁奖励信号都是理想的,因为奖励和行动之间的这些短期关联可以通过该方法轻松“注意到”,并且执行也可以通过政策小心翼翼地完善。你可以在我们的Pong代理中看到已经发生过这种情况的提示:它开发了一种策略,等待球,然后迅速破折,以便在边缘捕获它,这样就可以快速、高垂直速度地将球发射出去。重复此策略的代理将连续获得几分,在许多ATARI游戏中,深度Q学习都会以这种方式破坏人类的基本表现,例如弹球、突围等“
#3迁移学习
在第一场比赛之后,PlaNet代理已经对重力和动力学有了基本的了解,并且能够在下一场比赛中重复使用知识。因此,PlaNet的效率通常比从头开始学习的技术高50倍。这意味着代理只需要查看动画的五个帧(实际上是1/5秒的镜头)就能够以非常高的精度预测序列将如何继续。在实施方面,这意味着团队无需训练六个单独的模型就可以在任务上实现稳定的性能。
来自论文:“PlaNet解决了各种基于图像的控制任务,在最终性能方面与先进的无模型代理竞争,平均数据效率提高了5000%......这些学习动态可以独立于任何特定任务,因此有可能很好地迁移到环境中的其他任务“
看看PlaNet在仅有2000集的D4PG上惊人的数据效率提升吧:
从论文中可以看出:PlaNet在所有任务上明显优于A3C,并且达到接近D4PG的最终性能,同时平均与环境的交互减少5000%。
除了这些测试表现与收集的剧集数量(PlaNet是蓝色)的情节:
图4来自PlaNet论文,将PlaNet与无模型算法进行比较
这些令人难以置信的令人兴奋的结果意味着数据高效和普遍强化学习的新时代真的来了!
编译出品