Dota2人类被吊打,为啥人类研究员还总是着迷于游戏?

点击上方关注,All in AI中国

北京时间 8 6 日凌晨,OpenAIAI系统又跟人类打了三场Dota 2比赛,最终21 战胜了人类队伍!

这次代表人类出战的是 Blitz,Cap,Fogged,Merlini 和 MoonMeander,他们是欧美 Dota 圈耳熟能详的主播、解说和前职业选手和现役职业选手,其中 Merlini 更是 Dota 1 的宙斯冠名者,经典的“绕树林三杀”引无数玩家传颂。据 OpenAI 官网介绍,他们的平均水平超过了 99.95% 的 Dota2 玩家,不过5人并没有在一起训练过,默契程度有限。DOTABUFF 的数据显示,他们都进入了超凡入圣天梯排行榜。

与一个多月前的 5V5 镜像英雄 Dota2 比赛不同,这一次,OpenAI 不仅扩大了英雄池,允许双方以随机征召模式挑选英雄(无禁用),而且将 AI 系统的反应速度从 80ms 增加到了 200ms,更接近人类的反应速度,同时还移除了此前多种对人类不利的限制:

相比之下,最大的变化就是新的规则允许选手插眼、隐身(使用隐刀或诡计之雾等)和打 Roshan。这些限制的解除代表着人类可以获得更多的信息和发展空间,运用更多的战术和策略,比如利用刁钻的侦察守卫获得更多的信息,弥补技能衔接失误和反应速度较慢的弱点。

·直播链接:https://www.twitch.tv/openai

·本次比赛全程回放:https://www.twitch.tv/videos/293517383

Dota2人类被吊打,为啥人类研究员还总是着迷于游戏?

在这场人工智能与人类准职业选手的三场比赛中,人类仅仅赢了一局,在前两局的比赛过程中,基本上处于毫无还手之力的状态。

在游戏中,两个由五名玩家组成的团队被放置在一个方形竞技场的两端,并使用近战和法术来摧毁对手的基地。它是目前最赚钱的电子竞技项目之一,今年最大的锦标赛获得了超过2300万美元的奖池。对于研究人员的软件来说,要想赢得职业选手的青睐,就像一个在迈克尔·乔丹面前灌篮的机器人。

Dota2人类被吊打,为啥人类研究员还总是着迷于游戏?

游戏是一种可以了解人工智能研究的进展的简单方法:当处于复杂的情况时,人工智能可以击败人类吗?我们理解IBM的深蓝在国际象棋中击败Garry Kasparov意味着什么,而DeepMind的AlphaGo在人类实践和技能的数十年中击败了李世石。除了那些公开的比赛之外,人工智能研究人员已经工作了数十年,他们在玩Atari游戏、跳棋。

并非所有在视频游戏AI上进行的研究都适用于实验室之外,但在竞争之外,OpenAI可以广泛应用。一个例子:用相同的算法,可以设定明天玩Dota2,也可以设定为被教去移动机械手。

正强化

作为教授机器人玩游戏的最流行的方法之一,OpenAI(由Elon Musk和Sam Altman主要创建的AI研究实验室)使用的技术称为强化学习。当你为机器人提供一个目标时,比如收集硬币,并在完成目标时奖励机器人。起初,机器人的动作是完全随机的,直到它意外地弄清楚如何完成任务。机器人用于完成任务的动作会被认为是更好的,并且机器人很有可能在下次尝试时遵循这些操作。经过数百、数千或数百万次尝试,策略就会出现。

例如,OpenAI的Dota 2播放机器人在两周内播放了数百万个游戏。在每场比赛中,机器人的奖励都会从获得积分转移到增加整个团队的分数。正如Quartz之前报道的那样,研究团队称之为“团队精神”。

Dota2人类被吊打,为啥人类研究员还总是着迷于游戏?

纽约大学人工智能教授朱利安·格里乌斯表示:游戏是人工智能学习的好地方,因为它们是现实世界的类比,但它带有目标性。现实世界中没有有趣的任务,但游戏是完美的,他们会在那里获得奖励,无论你是否获胜,分数如何。

游戏可以无限次播放,它们只是软件,可以由数千个机器人同时播放,以增加他们找到解决方案或策略的速度。

但这种方法的一个缺陷是机器人学会做的事情完全取决于奖励。该算法没有关于视频游戏应该如何工作的概念,所以如果游戏中如果存在错误或故障,机器人将只会做最简单的事情,给予奖励。

在今年的早些时候德国弗莱堡大学的研究人员在训练强化学习算法时发现了这一点。它不是像人类那样学会玩游戏,而是通过跳下舞台一侧引诱敌人来杀死自己,因为他们知道敌人会跟随,这样游戏会将敌人视为被杀,并给予机器人额外的生命和分数,因此这是一个净收益的部分。

机器人也发现了一个小故障,如果它从平台跳到平台,它可能会将游戏分成成千上万的点数。从技术上讲,它正在发挥作用:获得积分。但这并不是真正的学习游戏。

Togelius的工作最近专注于通过随机化机器人每次播放的游戏级别来制作更好的游戏机器人。由于机器人永远不会两次播放同一级别,因此Togelius表示机器人不只是学习找到一个黑客或找出一个策略,他们实际上是在学习在任何情况下完成一项任务。

Dota2人类被吊打,为啥人类研究员还总是着迷于游戏?

网络架构图

不仅仅是一场比赛

OpenAI的视频游戏追求不仅仅是在游戏中击败专业人士,而且学习如何制定数以千计的小决策来实现更大的目标。一个例子是另一个使用与Dota 2机器人相同的学习系统和算法的OpenAI项目:它可以握住一个块并用它的手指将它操纵成特定的方向。

这两个项目大约是在同一时间启动的,OpenAI技术人员Jonas Schneider表示,当Dota 2团队去年在比赛中击败人类专业人员时,机器人团队意识到强化学习系统的潜力。

“我们基本上使用了与Dota实验完全相同的代码达到了相同的性能水平,在短短几个星期内,我们与之前几个月试图建立的产品达到了同等的水平。”

这些实验使用的是由OpenAI构建的程序Rapid来运行,该程序协调了数千个处理器,这些处理器同时运行数百个强化学习算法。每一种算法都为机器人提供动力,机器人通过游戏或模拟移动手,然后在试验结束时将其学到的内容与其他机器人同步。

利用比普通笔记本电脑高出数千倍的计算能力,机械手已经能够实现令人印象深刻的灵活性,而无需人类编码每个手指应该如何移动。

视频加载中...

虽然OpenAI使用类似的代码来训练其游戏AI和机器人,但一个重要的区别是他们每个人都在学习如何分别完成他们的任务。如果你试图让Dota 2机器人控制器成为一只手,它根本就无法做到:算法足够通用,可以学习多种技能,但仍然只有那些技能。

“我们还没有看到很多在游戏中训练然后就能转移到现实世界的东西,”Togeliu表示, “但我们所看到的是,为玩游戏而发明的方法转移到现实世界。”

OpenAI的快速强化学习系统并不是第一种从视频游戏开发并转化为现实世界的技术。 Togelius表示,蒙特卡罗树搜索是一种最初为10年前玩游戏而开发的算法,现在用于计划和优化等任务。欧洲航天局使用相同的算法来计划太空探测器的行星际轨迹,它也是DeepMind的AlphaGo算法的支柱,该算法在2016年击败了世界冠军李世石。

对于OpenAI的机器人团队,Dota 2似乎证明了这种技术可以用于未来更复杂的工作。 Dota 2系统使用的计算能力是机器人手20倍以上,训练时间为两周而不是机器人的双手,它需要两天,这意味着机器人团队有空间去解决可能需要更多时间问题学习。

施奈德说:“我们对现有算法能够取得多大的进展感到惊讶,因此我们希望在某种程度上Dota将成为视频里的游戏的里程碑。” “很明显,如果像这样复杂的游戏可以通过强化学习来解决,那将是强化学习和视频游戏的终极考验。”

Dota2人类被吊打,为啥人类研究员还总是着迷于游戏?

本文由部分内容整理自网络,侵删

相关推荐