AI玩转吃鸡游戏,避障导航帮队友望风,这是强化学习训练猎户座α
机器之心报道
参与:张倩
吃鸡类游戏很多人都玩过,但你在里面遇见过 AI 吗?最近,西山居正在研发一款名为《荣耀之海》的吃鸡类游戏,针对这款游戏,超参数科技研发了一款 3D 生存类 AI——猎户座α。它通过从零开始的强化学习训练,具备了复杂 3D 环境感知、物资搜索/使用、作战、团队配合等能力。该团队的创始人是原腾讯 AI Lab 总经理刘永升,团队其他部分成员之前也参与过腾讯「绝艺」、「绝悟」游戏 AI 的研发。
《荣耀之海》是一款什么游戏?
《荣耀之海》是西山居自主研发的新一代多人在线战术竞技游戏。游戏主打时下最火热的「吃鸡」玩法,百名玩家通过海上与陆上的大逃杀决出胜者。
在游戏中,25 支四人小队通过跳伞降落到某个区域,玩家需要在海洋与岛屿间搜集武器、防具、道具等各种资源。随着游戏的进行,地图上的安全区域将逐渐缩小,战斗爆发得也更加频繁,玩家需要配合队友,通过灵活多变的海陆策略,击杀其他队伍的玩家、生存到最后。
对于 AI 来说,《荣耀之海》在环境复杂度、AI 拟人度等方面对智能体的设计提出了很大挑战。
在环境复杂度方面,目前 AI 已攻克的游戏,大部分是运行在 2D 空间内。即使是 3D 空间的 DeepMind 雷神之锤 3 AI,也是基于上世代的游戏内核,地图简单、智能体数量少。相比之下,《荣耀之海》的 3D 环境较为复杂,地图较为庞大,玩家也比较多。
在 AI 拟人度方面,从开发商和玩家的角度,AI 并不只是越强越好,还要求越像人越好。作为一款吃鸡类游戏的 AI,猎户座α必须足够像人才能激发玩家的兴趣。
猎户座α表现如何?
现阶段,超参数团队的研究聚焦于一个迷你对局(mini-game)——在 230 米*230 米岛屿上、时限 6 分钟内、组队 2V2,最终存活的一方获胜。除这些限制外,其他游戏元素与完整游戏完全相同。
研究人员发现,在这个迷你对局中,猎户座α从零开始逐渐学会了在 3D 环境中生存所需的全方位能力。
1)AI 学会了通过搜集物资和跑毒来照顾好自己:
AI 出生后会快速搜集物资,观察到毒圈外有高级物资时,选择快速出去拾取后再尽快返回安全区。
AI 具有避障导航能力,可以通过翻窗快速进出房屋搜集物资。
2)AI 也学会了通过寻找掩体、灵活走位、武器使用等方式,以及记忆等认知能力,在竞争对抗中提升自己的生存能力:
AI 在对战中会合理利用掩体,并保持灵活的走位躲避攻击。
进入肉搏后,AI 会切换为近战武器,拉开距离后再切换回远程武器。
3)AI 还学会了发挥团队配合的力量,与队友互相掩护,在不同的战斗环境中采取针对性的战略战术,最大化自身优势:
某个 AI 被击倒后,AI 队友立刻实施救援,救活后会帮忙望风等队友打药。
在团队作战中,AI 分散站位并拉开枪线,集中火力优先消灭单个敌人。
消灭敌人取得人数优势后,AI 强势冲锋,依次经过楼梯进入房间,击杀剩余敌人。
在 AI 的训练过程中,研究者还观测到了许多与人类生存进化过程相似的地方。
人类在进化过程中,先学会采集食物补充能量、应对恶劣天气,然后学会各种工具的使用,掌握记忆等高级认知能力,进而学会与族群内同伴分工合作、与其他族群竞争对抗。AI 通过多智能体的自我训练的方式,也表现出了类似的进化现象。随着训练局数的增加,AI 逐渐涌现出了物资搜集、物资使用、空间感知、认知能力和复杂策略等智能行为。
AI 的进化过程
AI 玩转「吃鸡」类游戏难在哪儿?
《荣耀之海》作为一款 3D 游戏,复杂度相比一般 2D 游戏已经上了一个台阶,而吃鸡类游戏的超大地图、百人同局等要素又进一步增加了技术难度。
总体来说,猎户座α在《荣耀之海》中面临的挑战包括以下几个方面:
实时性与长期性
玩家不仅要做出实时的操作决策,还要做出长期的规划决策,平衡兼顾两者。具体到《荣耀之海》来说,为了最终获胜,整局游戏通常需要进行 30 分钟以上,对应的决策步数在 7000 步以上。
非完美信息
围棋等棋类游戏虽然也很难,但玩家能看到完整的棋局,也就能获取决策所需的完美信息。但在这种多人竞技非完美信息游戏中,玩家只能看到一定视角范围内的信息,无法看到被障碍物遮挡住的部分。因此,玩家需要有效探索不可见的信息,并具备记忆能力。
复杂的状态空间
《荣耀之海》中的 3D 环境比 2D 环境包括更多的信息,例如带深度的复杂空间结构、庞大的地图(10 公里*10 公里)、众多的玩家(100 人)、丰富的元素(大量建筑、障碍、物资等),对环境感知和探索提出了巨大挑战。
复杂的动作空间
要玩转这种「吃鸡」类游戏,猎户座α需要同时操作移动方向、视角方向、攻击、姿态(站、蹲、趴、跳)、交互(拾取、打药、换弹)等一系列操作,产生复杂的组合动作空间。据估算,离散化后的可行动作数量可以达到 10^7。
战略与战术
玩家需要对瞬息万变的环境和局势做出快速准确的判断,采取丰富的战略和战术,例如火力掩护、拉枪线、抢点、卡毒圈、封烟救援等等。
多人博弈
玩家不仅需要与队友进行密切的合作和通信,还需要与其他队伍在资源搜集、武装交火时进行对抗。与两人博弈相比,多人博弈的情况会更加复杂多变。
猎户座α是怎么做的?
不使用人类玩家数据,完全自我学习
「猎户座α」采用了深度强化学习方法,从零开始,通过与环境的交互和试错,学会观察世界、执行动作、合作与竞争策略。AI 没有使用任何人类玩家的对战数据,完全基于自我对战(self-play)的方式进行学习。
使用非完美信息
AI 观测的状态信息包括玩家/物资的实体信息、深度图、雷达图、小地图,以及宏观标量信息。与人类一样,AI 观测到的状态是非完美的——即只能看到一定视角范围内的信息,看不到视野外或是被障碍物遮挡住的信息。
与直接用 RGB 图像作为特征相比,研究人员采用的方式省去了图像目标检测和识别的过程,专注在 AI 的决策过程。此外,雷达图和小地图相当于自动驾驶中的高精度地图,深度图相当于深度摄像机捕捉到的信息。
限制 AI 手速
AI 的动作输出分为移动方向、水平/俯仰朝向、身体姿态、物资拾取/使用、武器切换、攻击等任务,多个任务可以同时执行,形成巨大的复合动作空间。
人类玩家在操作时,会存在反应时间的限制,APM(每分钟操作次数)也会有上限。为了与人类一致,研究人员对 AI 也进行了相应限制。
考虑到网络传输延时、特征提取和模型预测的耗时,AI 从「观测到 1 帧状态」到「产生 1 次动作」需要 120ms 的延时。在此基础上,他们额外增加了 100ms 延时。同时,AI 每秒最多执行 4 次动作、每次最多包含 3 个动作。
多个深度模型共同协作
每个智能体是一个深度神经网络模型,输入状态信息,输出预测的动作指令。研究者通过 Transformer 模型处理玩家、物资等实体信息,通过 ResNet 处理深度图、雷达图、小地图等图像信息,通过 MLP 模型处理宏观标量信息,然后通过 LSTM 模型实现记忆能力。
为实现多智能体合作,猎户座α采用了分布式的策略网络和中心式的价值网络,并引入了策略网络之间的通信机制。
AI 模型结构示意图
自研通用分布式强化学习引擎 Delta
「猎户座α」的训练在超参数自研的通用分布式强化学习引擎 Delta 上进行。该引擎通过大量弹性 CPU 资源产生训练数据,通过 GPU 资源更新神经网络模型参数,并且可以通过监控组件监控 AI 的训练过程。在该项目中,「猎户座α」训练一天相当于人类玩家打了 10 万年。该引擎可以部署在任何公有云上,目前已经支持了多款游戏的 AI 训练。
分布式强化学习引擎 Delta 架构示意图
需要指出的是,虽然猎户座α已经取得了一些进展,但目前的方案还存在诸多限制和待解决的问题。例如,AI 只能在单个岛屿上进行陆战对抗;AI 仅在 2 支队伍之间进行博弈;AI 掌握的物资和武器还比较有限。
研究人员表示,他们将逐步克服以上难题,最终让 AI 在完整地图上进行 100 人的吃鸡对战。
超参数科技是一家怎样的公司?
超参数科技是一家专注于游戏 AI 探索的初创公司,主攻机器学习、强化学习、大系统工程等领域,为游戏公司提供 AI 解决方案。已获晨兴资本、 高榕资本 A 轮融资。
该公司创始人刘永升是原腾讯 AI Lab 总经理、T4 技术专家。同时,他也是腾讯围棋 AI「绝艺」、王者荣耀 AI「绝悟」团队负责人。「绝艺」曾在今年 8 月斩获世界智能围棋公开赛冠军,而「绝悟」也在今年 8 月份的吉隆坡王者荣耀最高规格电竞赛事 KPL 世冠杯半决赛中击败职业玩家联队,晋升王者荣耀电竞职业水平。
超参数科技创始人刘永升。
除了创始人之外,超参数科技的其他团队成员也有多位来自腾讯 AI Lab 和 IEG 游戏的人工智能科学家、技术骨干以及海内外顶尖院校的精英伙伴。
该公司坚信 AGI 的产生来自于对生物智能进化过程的仿真模拟,而非截面式的复制。为了更逼真地实现这种模拟,他们选择电子游戏作为实验环境,并在此过程中反哺游戏本身。
他们致力于将 AI 能力和游戏场景进行深度结合,为游戏公司提供人工智能解决方案,帮助游戏厂商提升开发效率、开启全新玩法,在游戏设计、开发、运营等多个环节创造价值。