深度学习研究新内容:使用平均场博弈进行强化学习

点击上方关注,All in AI中国

深度学习研究新内容:使用平均场博弈进行强化学习

强化学习是当今深度学习中最受欢迎的研究领域之一。强化学习的部分受欢迎是因为这是一种类似于人类认知的学习方法。在强化学习场景中,代理通过对环境采取行动并获得特定奖励来有机地学习。一个鲜为人知的称为多智能体强化学习(MARL)的学科侧重于涉及大量代理的强化学习场景。通常,MARL场景受到可扩展性挑战的困扰,其中其复杂性随着环境中的代理数量线性增加。最近,两篇不同的研究论文一篇来自佐治亚理工学院(Georgia Institute of Technology),另一篇来自deep learning startup Prowler的研究小组,已经提出利用博弈论世界中的非传统技术来应对这一挑战。

单代理与离散多代理与无限多代理强化学习

强化学习中许多最著名的成功案例,如AlphaGo都是基于单一代理环境,其中只有一个人工智能(AI)程序与环境相互作用。在那些单一代理强化学习(SARL)的场景中,代理的奖励功能仅仅基于动作和环境状态的组合。现在考虑诸如涉及多个代理的多玩家游戏之类的场景。这些场景被称为多智能体强化学习(MARL),并且由于特定代理的奖励功能可能受到环境中其他代理的行为的影响,因此结果更具挑战性。

MARL场景在过去几个月中获得了一定的成功,比如OpenAI建立了一个可以击败Dota2的系统,在Quake III游戏中做同样的事情。但是,在这两种情况下,MARL环境仅涉及少量代理。到目前为止,MARL方法在应用于涉及大量代理的场景时仍然存在困难。从这个意义上讲,影响MARL的最大问题之一是它是否能够在趋向无限代理商的情景中被证明是有效的。

带有无限代理的MARL场景就在我们身边。想想股票市场动态,其中交易者的行为可能受到大量其他交易者或宏观经济事件的影响。同样,贸易或货币政策等领域的许多现代经济问题可以模拟为具有大量代理人的MARL环境。具有无限代理的MARL场景的复杂性具有一个非常简单的数学解释。多智能体游戏的解决方案通常使用电影《美丽心灵》中描述的著名的Nash-Equilibrium建模。然而,Nash-Equilibrium的计算复杂度与环境中的代理数量成线性关系,使得无限代理的MARL场景不可用。

深度学习研究新内容:使用平均场博弈进行强化学习

输入平均场游戏

平均场游戏(MFG)是博弈论领域,使用大量非合作的理性代理来模拟建模。这个革命性的模型已经被数学家深入研究并应用于描述复杂的多智能体动态系统,如股票市场和智能电网。然而,MFG仍然主要是理论演习。虽然理论上MFG本身可以描述大型人口系统的行为,但模型可能需要处理通常无法解决的非线性偏微分方程。幸运的是,MARL没有那个问题,因为它不需要精确的方程式。

MFG和MARL

MFG和MARL是两个无法解决的因素。MARL可以使用不精确的概率模型有效地运行,但是在具有无限代理的环境中它是不切实际的。 MFG可以有效地模拟大量代理人的行为,但通常会产生不可解决的方程。如果我们将两者合并会发生什么?

深度学习研究新内容:使用平均场博弈进行强化学习

上面提到的两篇研究论文提出了将MFG应用于MARL场景的不同技术。在这两种情况下,研究表明,MFG方法可以大大降低具有大量代理的MARL场景的复杂性。例如,MFG可以将MARL场景中的代理行为建模为概率密度函数,因为它假设所有代理具有相似的奖励函数(股票市场中的所有交易者都专注于最大化每笔交易的回报)。这种简化使得具有大量代理的MARL场景在计算上可行。而不是代理单独响应其他代理的动作,每个代理现在执行其动作以响应共同代表所有代理的状态集合的质量。

Prowler.io研究团队进行了几项结合MFG和MARL的实验。其中一个实验基于著名的(SC)游戏,其中N个代理在给定一些初始位置的情况下,每个代理选择一个动作以便移动到作为终端状态的期望位置。某些区域比其他区域更容易占据,但是代理商不喜欢占据拥挤区域。代理商可以获得最大的奖励,这些奖励既可以是理想的,又具有相对低浓度的药剂。

将MFG应用于此场景表明,无论参数的配置如何,奖励函数在大约2000集之后趋于稳定。

深度学习研究新内容:使用平均场博弈进行强化学习

之前实验的一个令人惊讶的结果是,MFG似乎也影响了RL代理,以优化长期规划。例如,在SC游戏中,代理通过采用快捷方式(横向遍历)来了解对象,他们可以增加整体奖励。为了以这种方式行事,代理必须首先以低奖励产生成本,因为它们遍历与对象路径不一致的水平路径。从这个意义上说,代理人通过放弃直接奖励来支持采取最大化长期奖励的途径来展示计划。

深度学习研究新内容:使用平均场博弈进行强化学习

使用MFG方法对MARL场景建模仍然是纯粹的理论练习,并未在实践中应用。然而,最初的研究显示出一种令人难以置信的潜力,最终突破了MARL许多最大限制所考虑的因素:使用无限代理进行大规模操作。

深度学习研究新内容:使用平均场博弈进行强化学习

相关推荐