经过 180 年的训练,OpenAI 在 DOTA 2 上完虐人类!
点击上方“CSDN”,选择“置顶公众号”
关键时刻,第一时间送达!
你以为隔壁坑你的都是小学生,对面的都是大神。或许你错了,跟你对战的可能不是人。
对于人工智能(AI)来说,在棋牌游戏中击败人类已不足为奇。现在,科技巨头公司想要在电子游戏中发起挑战。近日,素有「硅谷钢铁侠」之称的埃隆·马斯克和 Sam Altman 创建的研究实验室 OpenAI 在官方博客上宣布了他们最新的进展,由其团队构建的模型——OpenAI Five 在当前流行的电子竞技游戏 DOTA 2 中,击败前 1% 的业余选手,获得了 5 v 5 团队赛中的胜利。不过目前这些机器人还未曾挑战专业选手团队,所以未来还有很大的挑战。OpenAI 实验室的 5 个机器人打败了人类团队
或许很多人还记得去年 8 月 OpenAI 首次进入 Dota 2 的世界的场景,彼时的机器人在 1 对 1 的 solo 比赛中击败人类顶级选手 Dendi:
第一局,OpenAI 机器人仅用 10 分钟就击败了 Dendi;
第二局,Dendi 主动放弃比赛;
第三局,Dendi 拒绝了。
但是,1 v 1 的游戏大大降低了 DOTA 2 的挑战难度。曾经 1 v 1 比赛结束时,Open AI CTO Greg Brockman 就表示将会转战 5 v 5,战胜人类世界级玩家不是“梦”。如今这个“梦”已成真,OpenAI 已经升级了该系统的机器人,可以在 5 v 5 的比赛中与人类抗衡,这个过程需要更多协调和长期规划。虽然 OpenAI 还未曾在比赛中挑战最厉害的选手,但是这些机器人将参加今年下半年的 DOTA 2 国际邀请赛,这项比赛堪称电子竞技界中最大的年度盛事。
▌战友还是敌人?OpenAI Five 为何要挑战人类?
这项研究的动机很简单:如果我们可以教会人工智能系统玩电子游戏的技术,那么我们就可以用它们来解决真实世界中的复杂挑战,例如在一些类似于电子游戏的方面——管理城市的交通设施等。
Greg Brockman 表示,“这是一个让人兴奋的重大进展,AI 确实开始向现实生活的应用转变。如果你模拟了一个问题,而且可以大规模运用的话,那么就可以所向披靡。”
从根本上说,电子游戏可以提供棋牌游戏或 Go 等无法提供的挑战。这些游戏隐藏了玩家的信息,这意味着人工智能无法感知整个游戏场地并计算出下一步的最佳行动。而且它们还将面临更多需要处理的信息以及大量的备选行动方案。OpenAI 表示,DOTA 2 的机器人时刻需要在一千种不同的动作中进行选择,同时处理两万多个代表游戏动向的数据点。
▌何德何能?OpenAI Five 为什么能战胜人类?
该实验室采用了一种强化学习的机器学习方法来创建他们的机器人。这是一种看似简单却能产生复杂行为的技术。他们将人工智能机器人投入到虚拟环境中,在那里它们自学如何通过反复试验来达成目标。编程人员设置了奖励机制(如果机器人完成杀死敌人等任务时会受到奖励),然后就让人工智能机器人自行一遍又一遍地玩。
这种新型的 DOTA 机器人已经玩了无数遍游戏。每天,这些机器人都以加速的模式玩相当于 180 年的游戏。他们用这种速度训练机器人已有数月。Brockman 称:“刚始时机器人完全随机地在地图上闲逛。几个小时以后,开始学习基本的技能。对于人类来说,需要 1.2-2 万小时的练习才能成为专业选手,这意味着 OpenAI 的机器人每天的练习量都相当于 100 个人类的练习时间。”
一方面,这证明了当代机器学习方法以及最新大数据处理计算机芯片的强力。另一方面也说明人工智能机器人根本不智能。如果人类需要花费数千年的时间才能学会玩一个电子游戏的话,我们这个物种早就不复存在了。
▌Open AI 未来面临的挑战
尽管 OpenAI 的机器人现在可以玩 5 v 5 的比赛,但它们仍然没有充分体验到 DOTA 2 的复杂性。它们有很多的限制。在 115 个不同风格的角色中,它们只能玩其中 5 个,包括:死灵法师、狙击手、冥界亚龙、水晶室女和巫妖。它们决策过程中的某些元素(例如从 NPC 那里买哪些东西以及用经验点数升级哪些技能等)是在代码里写死的。有其中其他比较棘手的部分也被完全禁用了,包括隐身、召唤和置换守卫(远程放置侦查守卫,在高端游戏中非常重要。有一位游戏指导警告说,守卫是最让新手感到困惑的问题)。
OpenAI 的机器人还拥有计算机的所有优势。它们的反应速度比人类快,它们不会点错,它们可以即时获取准确的信息,例如仓库、英雄生命值和地图上物体的距离(这对于正确使用某些法术来说非常重要)。对于这些所有的信息,人类玩家都必须手动检查或通过直觉判断。
所有这些看起来都像是对机器人能力的控诉,但是 Brockman 认为这都是其次的。他说,真正对 OpenAI 的机器人造成威胁的是 DOTA 2 平均持续 45 分钟的游戏时间。对强化学习来说,这种长时间的计划很难,而且机器人甚至无法学会。但是 OpenAI 的情况却并非如此。Brockman 说,他们成功的主要原因很简单,他们投入了更多计算力解决了这个问题。他说:“说到底还是规模的问题。”
巴斯大学一位研究电脑游戏团队协作的 AI 研究人员 Andreas Theodorou 表示,最新的 5 v 5 研究是一个很大的进步,尽管他指出可能最“重要的成就”是 OpenAI 使用计算机视觉技术调试他们的机器人。Theodorou 告诉称:“这些技术表明,即使强化学习和机器学习系统通常也可以很透明,这提高了该系统的价值,特别是在教育方面。”
Theodorou 认为,研究人员使用单独的奖励机制鼓励机器人协同工作是非常值得注意的。这种奖励机制被称为“团队精神”,随着每场比赛的进行这种奖励会增加。刚开始的每场比赛中机器人都在追求个人目标,比如积累击杀次数,但是随着时间的推移,它们会更加关注共同的目标。
与人类玩家不同,机器人绝对不会有“自我”的表现。“机器人为了更大的利益,而完全愿意牺牲一条路径或放弃一个英雄。为了娱乐的目的,我们让一个人类替换了其中一个机器人。我们并没有进行特别的训练,但是他说他得到了很好的支持。在他有需要的时候,机器人总会来帮助他。”Brockman 如实说。
▌最后
OpenAI 的机器人团队已经与业余选手和半职业选手队伍进行了 5 场游戏比赛,赢了 4 场平了 1 场。但是它们即将面临的最大挑战是今年下半年的国际邀请赛。拥有完美时机且没有自我的机器人真的能够打败靠流畅的操作和直觉的人类专业玩家吗?让我们拭目以待吧。
原文:https://www.theverge.com/2018/6/25/17492918/openai-dota-2-bot-ai-five-5v5-matches
作者:James Vincent
译者:弯月
审校:屠敏
征稿啦!
CSDN 公众号秉持着「与千万技术人共成长」理念,不仅以「极客头条」、「畅言」栏目在第一时间以技术人的独特视角描述技术人关心的行业焦点事件,更有「技术头条」专栏,深度解读行业内的热门技术与场景应用,让所有的开发者紧跟技术潮流,保持警醒的技术嗅觉,对行业趋势、技术有更为全面的认知。
如果你有优质的文章,或是行业热点事件、技术趋势的真知灼见,或是深度的应用实践、场景方案等的新见解,欢迎联系 CSDN 投稿,联系方式:微信(guorui_1118,请备注投稿+姓名+公司职位),邮箱([email protected])。