每一个强化学习者都应该上的一门课!

点击上方关注,All in AI中国

每一个强化学习者都应该上的一门课!

许多机器学习研究旨在从神经科学、心理学和儿童发展中汲取灵感,宣传诸如Hebbian学习、好奇心驱动的探索或课程学习等概念,并将其作为建筑设计或学习理论最新转折的理由——而且往往是一种后合理化。

然而,我们通常忽略了这样一个事实:即现代机器学习工具包既没有接近大脑神经生理学的基质,也没有达到像小孩子的高水平的意识或智力发展。

在研究大脑的神经结构和人类儿童的神经结构之间存在一个有趣的中间地带,即观察动物学习。关于从霉菌到昆虫或蝙蝠等简单生物体的实验,已经有很多报道。但是,这一系列的研究通常仅限于“在野外”学习,即环境会以这样或那样的方式施加压力以引发特定的行为,而不需要有老师的干预。

可以说,机器学习更多的是设计一个更好的老师,而不是更好的学习者。

动物训练为这张照片添加了必要的附加层,即动物心灵能够引发非常复杂的行为,但是它们由简单的目标和动机(食物、游戏、陪伴)驱动的行为,现在正在被重新塑造,受到人们几十年经验影响诱发正确行为,让其以有效、高效和可重复的方式行事。深层强化学习研究的相似之处很明显:与代理人沟通奖励的渠道相对较窄(主要是各种奖励和惩罚),复杂而模糊的输入,有些不透明的能力学习者,能够应对任何激励措施呈现给它,学习复杂的行为。但同时也是我们希望让其尽可能有效的“老师”,其复杂性和独创性仅受到他们对最佳部署策略的想象力或理解的限制。无可否认,当我们假定狗狗接受治疗后,其功能反应近似于神经网络时,这种类比是最薄弱的。

我第一次接触动物学习是在阅读有关黑猩猩的故事时。这本书证明了这样一种情况,即在动物处于极端条件下,没有任何积极的奖励可以弥补他们所承受的压力水平,并且所有的学习都是由负面奖励驱动的。

我们参加的课程当然没有这些,但是有很多快乐、可爱、精力充沛的狗,他们非常兴奋地学习。因为这是当天的第一课:寻求奖励行为和学习的品味,虽然在某种程度上是天生的,而且往往由狗的个性决定,但也是首先要培养和发展的。行为和结果之间的联系是可以建立和加强的,随后的大部分学习都建立在这个基础之上。这个基本的构建块依赖于经典的巴甫洛夫式反应之上:拿一些原始的东西,比如对食物的渴望,并将其与简单的线索相关联,例如使用一个点击器或“好孩子”的称赞声作为代理奖励。利用与预期奖励相关的多巴胺冲动是在输入与预期结果之间建立紧密耦合的关键因素。

每一个强化学习者都应该上的一门课!

对于机器学习科学家来说,有趣的是发现代理奖励的问题比真正的奖励更灵活的操作出现,以及如何确保系统保持一个真正的奖励与代理之间的关联通常是真正的问题。这种代理奖励的另一个值得注意的用途是创造本质上不具有内在负面影响的负面奖励(如痛苦或沮丧)——我会回过头来看。我发现有趣的是,这一阶段训练的一个关键因素是这种多巴胺反应具有促进迁移学习的关键特性:它不依赖于奖励本身,它附加于奖励的期望。即使没有真正的奖励,这也可以替代代理。此外,直接后果是当奖励最不确定时,多巴胺反应最强。训练师利用这些知识通过使奖励高度随机化来放大奖励的效果:有时高,有时低,有时完全缺席。让学员不断猜测是一种有效的方式,可以让他们保持追求“完美”的热情,从而最大化他们的奖励。

一旦建立了渴望学习,会引出许多有趣的行为,这种行为启发的一个关键方面是,一旦达到行为的关键步骤,就给予受训者大量奖励,之后仅用较少的奖励,保证他们的参与,直到他们完美地重复它。这种奖励是微妙的,一点儿也不直观,但真正有趣的是你可以通过简单地扮演狗和训练师的角色来自己练习(不需要喂食,只需一个点击器或哨子这样的信号就好)。角色扮演是迄今为止训练中最有趣和最有启发性的部分,试图用语言来表达你为让你的队友完成复杂任务而制定的策略,并给予他们简单的二元奖励,这样做是不公平的。我建议你亲自体验一下,其中大部分本质上是奖励塑造的游戏。奖励塑造的坏名声有时候是来源于特定的某种任务,因此难以变成一个一般的强化学习策略,但这种经验确实让我觉得我最终开发的策略并不是真正的特定任务,并且正确的词汇可以被提炼成非常一般的规则,只要该设置允许奖励可以访问代理的状态以及世界。它还使我确信,奖励塑造应该是动态的,并且取决于代理人的历史,而我通常不会这样做。

每一个强化学习者都应该上的一门课!

训练的下一步是引入负面奖励。比如,我们的手臂上带着一个项圈,产生“嗡嗡”的电流声的时候,我们就知道它是“不好”的。同样地,通过一系列的训练,狗也会将不满意与这种感觉联系起来。关于负面奖励的有趣之处在于,他们纯粹被训练师视为是提高样本效率的一种方式,当然他们并没有以这种方式表达出来。

通过实质上缩小探索空间和抑制与手头任务无关的行为,不会引入负面奖励,只会加快学习速度。我们亲身经历过这样的事情:使用负面奖励来“引导”你的狗朝向正确的行为,当它们偏离你可能希望他做的事情时,最好采用积极的奖励再试试。

训练狗狗可能还有很多东西需要学习,而且大部分时候,似乎你只能亲自体验它才能建立起来那种直觉。对我来说,最直接的是不断调整与奖励之间的协调关系,并从中获得一些关于如何使其更加与任务无关:或许它需要使塑造本身变得动态、有状态性甚至可能是随机的。

每一个强化学习者都应该上的一门课!

编译出品

相关推荐