请查收，这是份值得收藏的Unity强化学习指南！

hhycsdn

2019-03-21

点击上方关注，All in AI中国

作者——João Ramos

上周，我和我的两位同事Pedro Quintas和Pedro Caldeira进行了一些实验。在实验中，他们使用了Unity ml-agents（09https://github.com/Unity-Technologies/ml-agents）。我认为这是一个很好的契机，能够与社区分享我们的成果，并向你展示应该如何扩展强化学习知识。

如果你不知道Unity ml-agents是什么，请允许我提供一个简短的介绍。Unity ml-agents是一个"开源的Unity插件，它能使游戏和模拟器成为你训练智能代理的环境"。在我看来，它是一个很好的框架，可以帮助新手开始学习深度学习和强化学习。因为它可以使你看到正在发生的事情，而不仅仅是看到在终端上的数字和字母。

在开始介绍我们的小项目之前，让我先展示一些已经创建好的场景。

请查收，这是份值得收藏的Unity强化学习指南！

好，现在你了解了这个工具的功能，下面就让我们讨论这个项目吧！

我们使用了Unity ml-agents创建了一个代理。它的外形像是一只"蜘蛛"，但只有4条腿。我们为小""蜘蛛""创造了一个移动平台。

请查收，这是份值得收藏的Unity强化学习指南！

这就是Unity building，接下来我们一起谈谈强化学习！在开始时，和往常一样，""蜘蛛""（agent）只知道它在平台上的位置和方向，其余的它都一无所知。由于我们的目标是让两只""蜘蛛""互相争斗（不告诉它们该怎么做），所以我们必须设法教它们。现在就是强化学习大展身手的时候了。在这篇文章中，我会默认为你知道强化学习背后的基本理论。如果你是新手，那么这里有初学者指南！（https://skymind.ai/wiki/deep-reinforcement-learning）

所以，就像任何一个"懵懂的"代理一样，我们必须"教"它。通过奖惩来训练它，经过一番反复试验，""蜘蛛""终于知道如何站起来走路了！基本上，每次它们的身体接触到地面时，我们都给予了惩罚。因为如果它们的身体在地面上，这意味着它们没有用腿行走，或者说它们的腿没有产生足够的力。通过给予惩罚，我们能告诉""蜘蛛""这些行为是不好的，它们应该避免这些行为。

让我们概括一下到目前为止的情况：

- 我们使用ml-agents创建了一个Unity环境。

- 我们教我们的"蜘蛛"站起来，让它们学会行走。

下一步是教它们学会战斗！为了改变"蜘蛛"的行为使它们能够战斗，我们必须改变奖惩机制。因此，如果其中一只"蜘蛛"走出平台，或者身体与地面进行了接触，它将获得非常严重的惩罚。

再一次强调，如果我们没有良好的奖惩机制，它们就会不断犯错。所以当一只"蜘蛛"面对另一只"蜘蛛"时，我们给了它奖励，当"蜘蛛"朝另一只"蜘蛛"的方向行进时，我们给予了更好的奖励。这使得两只"蜘蛛"会朝着另一只"蜘蛛"的方向前进，并且在某些时候，其中一只"蜘蛛"会将另一只"蜘蛛"扔出平台。（这只是一个证明我的观点的简单例子）

请查收，这是份值得收藏的Unity强化学习指南！

此外，它们自己也认识到，只要把对方打倒在地，就能赢得胜利。所以在同一时刻，他们开始"摔跤"。这是一个非常有趣的观察。

同时，我们还使用移动平台测试了我们的代理，以创建一个更加困难的环境：

请查收，这是份值得收藏的Unity强化学习指南！

如果你想复制我的结果，这里有更多关于我的可观测向量和奖励函数的信息：

可观测向量（代理即指蜘蛛）

代理关于自身的信息：

- 关于代理关节的信息

- 使代理身体前进的向前向量e

- 代理在平台中的位置

关于对手的信息：

- 能够向上移动对手身体的向前向量

- 对手在平台中的位置

奖励函数

代理不能站立会受到惩罚，使对手摔倒会获得奖励，攻击对手，令对手摔倒是代理的主要目标。
代理从平台上掉下来会受到惩罚，不会得到奖励。我们希望代理学习战斗方法，不限制以特定方式击倒对手。
代理前进和推对手会获得奖励，后退或者自己被推会受到惩罚。我们奖励战斗积极的代理，并惩罚战斗风格偏向逃避或喜欢逃跑的代理。

基于前面的观点，我们创建了以下内容：

如果代理的身体接触了地面：-1.0分
如果对手的身体接触了地面：+1.0分。
如果代理不在平台上：-1.0分
0.003（归一化速度（对手位置 - 代理位置））+ 0.001（前向归一化（对手位置 - 代理位置））

最后，我们试图通过使用类人生物作为代理来进行进一步研究。难度呈指数级增长，因为"蜘蛛"只有有8个关节，而类人生物有12个。这增加了可能的运动组合的总数。所以，我们最终没有取得满意的结果，但看起来非常有趣：

请查收，这是份值得收藏的Unity强化学习指南！

总之，Unity ml-agents允许你非常容易地构建一些有趣的东西。我认为这是开始学习这门学科的好方法。

请查收，这是份值得收藏的Unity强化学习指南！

编译出品

强化学习蜘蛛

安科网

请查收，这是份值得收藏的Unity强化学习指南！

hhycsdn

hhycsdn

相关推荐

强化学习到底是什么，它如何运作？

AlphaGo原来是这样运行的，一文详解多智能体强化学习

Menger:大规模分布式强化学习架构

Science 好文：强化学习之后，机器人学习瓶颈如何突破？

监督学习、非监督学习、强化学习都是什么？终于有人讲明白了

监督学习、非监督学习、强化学习都是什么？终于有人讲明白了

几行代码实现强化学习

强化学习

无梯度强化学习：使用Numpy进行神经进化

强化学习 --- 马尔科夫决策过程详解（MDP）

5种用于Python的强化学习框架

李宏毅的强化学习视频用于梳理翻阅（4）奖励、模仿

《AutoDL论文解读（一）：基于强化学习的开创性工作》

卡耐基梅隆大学（CMU）元学习和元强化学习课程 | Elements of Meta-Learning

你该知道的深度强化学习相关知识

【论文研读】强化学习入门之DQN

告别炼丹，Google Brain提出强化学习助力Neural Architecture Search | ICLR2017

DeepMind发布神经网络、强化学习库，网友：推动JAX发展

<强化学习> on policy VS off policy

<强化学习>基于采样迭代优化agent

hhycsdn