强化学习与日常生活中的最大熵策略

勿于浮沙筑高台

2018-11-05

强化学习与日常生活中的最大熵策略

强化学习（RL）可以应用于人工智能以外的世界。强化学习本身是机器学习的一个领域，致力于在外部奖励的背景下优化行为。这篇文章中讨论的不是整个RL，而是动作(action)选择中随机性的作用。

乍一看，随机性的概念对一个旨在达到最佳行为的算法来说似乎是违反直觉的。当然，最佳行为不是随机的。然而，事实证明随机行为对于学习过程是必不可少的。我们在RL中使用随机操作，因为我们希望我们的代理能够探索他们的世界，而不是一些关于世界的先验知识，随机操作和其他任何开始探索环境的策略一样好。话虽这么说,这些随机行为是在特定条件下,如从概率分布选择行为时,你会发现在策略梯度方法,或使用一个epsilon-greedy时间表行动选择,你会发现在值取向的方法。

强化学习中的熵

在许多RL学习算法中，例如policy-gradient和actor-critic，动作被定义为概率分布，环境状态的条件：p（a | s）。当代理采取离散动作时，选择许多可能的动作之一，使用分类分布。在连续的情况下，可以使用具有平均值和标准偏差的高斯分布。利用这些类型的策略，代理所采取的动作的随机性可以通过该概率分布的熵来量化。

强化学习与日常生活中的最大熵策略

分类（左）和高斯（右）分布

上图：橙色显示低熵分布，而蓝色显示高熵分布

熵是一个有着悠久历史的术语。它最初在物理学中被用来表示系统内部缺乏秩序。从那时起，它就融入了信息理论的核心，作为一种衡量信息在交流中呈现的方式。在RL中，信息理论的定义被重新定义。因为RL是关于学习动作的，所以这里的熵直接与一个代理在给定策略中采取的不可预测性有关。熵越大，agent采取的动作越随机。

强化学习与日常生活中的最大熵策略

离散概率分布（p）的熵方程

在RL中，目标通常被形式化为优化折扣奖励的长期总和。这意味着学习采取特定的动作序列，这可以在排除其他可能的动作序列的情况下实现这一目标。这样的学习过程自然会导致动作选择政策熵的减小。这是合理的，因为如果我们期望有目的的动作，那么这种动作自然就不会像最初的策略那样随机。

激励熵

除了激励策略收敛于导致高长期奖励的行为的一组概率之外，通常还会将有时被称为“entropy bonus”的内容添加到损失函数中。此bonus鼓励代理人采取更加不可预测的行动，而不是更少。

强化学习与日常生活中的最大熵策略

Update equation for A3C. Entropy bonus is H(π) ter

使用Entropy bonuses是因为没有它们，代理可以快速地收敛于局部最优的策略，但不一定是全局最优的。任何根据经验研究过RL问题的人都可以证明，代理可能会经常陷入困境，学习的策略只能转向单一方向，或者明显不理想但熵很低的行为。在由于稀疏的奖励或其他因素而难以学习全局最优行为的情况下，则代理可以选择更简单但不太理想的行为。Entropy bonuses用于试图通过向损失函数中添加一个熵增项来抵消这种趋势，并且在大多数情况下它工作得很好。实际上，现有技术上许多关于策略的深度RL方法，例如A3C,PPO，以及其它的方法。

最大化长期熵

虽然entropy bonuses 被广泛使用，但它们实际上与学习行为理论中的一个更基本的概念联系在一起。到目前为止所描述的entropy bonuses 被称为one-step bonus。这是因为它仅适用于环境中代理的当前状态，并且没有考虑代理可能发现自身的未来状态。它可以被认为是熵的“贪婪”优化。我们可以比照RL代理如何从奖励中学习。不是在每个时间步都优化奖励，而是训练代理以优化未来奖励的长期总和。我们可以将相同的原理应用于代理策略的熵，并优化长期的熵总和。

实际上，许多研究人员的理论工作表明，建议不仅在每一步都提供entropy bonuses，优化这一长期目标是更好的方法。这意味着，代理不仅要学习尽可能多的未来奖励，而且要将自己置于未来熵最大的位置，这是最佳的。

强化学习与日常生活中的最大熵策略

最大熵强化学习方程

上图：最优政策π对应于最大discounted rewards和熵

考虑它的一种方法是，最佳代理尽一切可能获得尽可能多的奖励，但对于正在采取的具体动作集合尽可能不承诺，以便在未来改变其行为。考虑它的一种更简单的方法是优化长期熵意味着优化长期适应性。这样，如果一种更好的行为方式呈现出来，无论是在当前的学习过程中，还是在整个训练过程中，代理都可以最容易地转换到另一个策略。围绕这种方法的形式主义被称为最大熵强化学习。你可以想象，它被称为这是因为我们想要联合优化长期奖励以及长期熵。这种方法在许多情况下都很有用，所有这些都与代理对环境的了解或环境本身随时间的变化有关。正如您在下图中所见，已经有一些工作可以凭经验验证这种方法。即使在几个静止的Atari任务中，使用长期熵奖励也会产生类似或更好的表现。

强化学习与日常生活中的最大熵策略

比较one-step entropy bonus（红色）与熵长期优化（蓝色）的实验结果。在比较的六个任务中，长期熵优化导致与one-step熵优化一样好或更好的性能。取自https://arxiv.org/abs/1704.06440。

日常生活中的最大熵策略

我想说这个最大熵强化学习原则实际上比RL更广泛地应用，并且触及我们生活的许多方面。在最大熵RL中，基本原则是最优动作对应于承诺和适应性之间的适当平衡。我相信，这同样适用于生活决策，也适用于人工智能的行为。

考虑一个假设的例子，在一个比你成长的地方更冷的气候下搬到一个新的城市。你可能已经养成了经常穿t恤和短裤的习惯。在新城市，这可能会导致不那么舒适的体验。你是否愿意调整自己的衣柜以适应新的环境，这直接关系到你的着装政策是否“high-entropy”。在原来的城市你优化你的衣服舒适。如果你有一个high-entropy的策略，你会很快适应新的城市。如果你有一个low-entropy的服装策略，那么你可能会固执地坚持你已经存在的服装模式，并因此遭受痛苦。这里的关键不仅是现在要有一个high-entropy策略，而且要确保当像搬到一个新城市这样的事情发生时，熵也会很高。

上面的例子可能看起来有些愚蠢，但我认为它反映了我们在现代社会中遇到的大量现象。让我们考虑一下社会层面的另一个例子：科学发展的例子。举例来说，任何科学革命，例如哥白尼，达尔文，或你个人最喜欢的。科学家试图优化科学发现的回报（名望，真相，社会/技术影响等），他们面临着继续沿着已有的研究方向继续前进或者适应新范式的机会。具有“high-entropy”研究计划的人更有可能适应基于以太阳为中心的宇宙的科学计划，或基于自然选择的生物体特征的发展。相反，那些采用low-entropy策略的人更有可能继续使用他们已有的计划。这些科学家的职业生涯早期出现了长期最大熵方面。他们面临着确保他们的研究计划不会过于封闭或专注于特定理论信念的机会。在职业生涯的早期做出这些决定，可以在一个人的生命中做出快速的改变。

上面提供的示例只是与我们在世界上的个人和集体决策相关的无数可能的一些例子。类似的例子可以很容易地从人际生活，政治和任何其他生活决定中得出。在所有情况下，关键是不仅要计划好的结果，还要计划在世界发生变化时的能力。这是一个洞察力，许多成功的人已经根深蒂固到他们的生活，我想可能会有许多人工人士充满同样的洞察力。

强化学习机器学习

安科网

强化学习与日常生活中的最大熵策略

勿于浮沙筑高台

强化学习中的熵

激励熵

最大化长期熵

日常生活中的最大熵策略

勿于浮沙筑高台

相关推荐

强化学习到底是什么，它如何运作？

AlphaGo原来是这样运行的，一文详解多智能体强化学习

Menger:大规模分布式强化学习架构

Science 好文：强化学习之后，机器人学习瓶颈如何突破？

监督学习、非监督学习、强化学习都是什么？终于有人讲明白了

监督学习、非监督学习、强化学习都是什么？终于有人讲明白了

几行代码实现强化学习

强化学习

无梯度强化学习：使用Numpy进行神经进化

强化学习 --- 马尔科夫决策过程详解（MDP）

5种用于Python的强化学习框架

李宏毅的强化学习视频用于梳理翻阅（4）奖励、模仿

《AutoDL论文解读（一）：基于强化学习的开创性工作》

卡耐基梅隆大学（CMU）元学习和元强化学习课程 | Elements of Meta-Learning

你该知道的深度强化学习相关知识

【论文研读】强化学习入门之DQN

告别炼丹，Google Brain提出强化学习助力Neural Architecture Search | ICLR2017

DeepMind发布神经网络、强化学习库，网友：推动JAX发展

<强化学习> on policy VS off policy

<强化学习>基于采样迭代优化agent

勿于浮沙筑高台