清华大学团队与腾讯AI Lab专项合作夺冠FPS游戏AI竞赛VizDoom
在荷兰刚刚结束的 IEEE CIG 计算智能与游戏大会上,清华大学张钹院士领导的人工智能创新团队 TSAIL 在第一人称射击类游戏《毁灭战士》(Doom)AI竞赛 VizDoom(Visual Doom AI Competition) 上荣获竞赛 Track 1 的预赛和决赛冠军,及 Track 2 预赛冠军、决赛亚军,成为赛事历史上首个中国区冠军。
该赛事研究得到了腾讯 AI Lab 犀牛鸟专项合作计划的大力支持,研究过程中与腾讯 AI Lab 的资深研究员进行了密切合作。团队负责人为清华大学TSAIL实验室负责人朱军教授,成员包括清华大学苏航、黄世宇、阎栋、翁家翌及宋世虹,及腾讯AI Lab许佳、孙鹏等研究人员。
Track 1 官网:
https://www.crowdai.org/challenges/visual-doom-ai-competition-2018-singleplayer-track-1
Track 2 官网:
https://www.crowdai.org/challenges/visual-doom-ai-competition-2018-multiplayer-track-2
1
2
3
4
图1至图4依次为: Track 1 预赛、Track 2 预赛、Track 1 决赛及 Track 2 决赛。点击可放大图片。
打 Doom 游戏的 AI
《毁灭战士》是 ID Software 公司于 1993 年推出的FPS(First Person Shooter,第一人称射击)类游戏,作为该类型游戏开拓者,模式延续到《使命召唤》和《光环》等多个射击游戏。AI 在游戏中能有画面而无声音信息,因此基于强化学习的 Bot 获得的信息比人类还少,使该游戏成为了 AI研究热门试验场。
在深度学习和强化学习兴起背景下,2016年,基于游戏的 ViZDoom AI竞赛诞生,研究能获取原始视觉信息的强化学习技术,因其高挑战性吸引众多顶级实验室,如2016年冠军 Facebook FAIR(Track 1) 和英特尔(Track 2) 、2017年冠军 Marvin(Track 1) 和卡耐基梅隆大学(Track 2)。
比赛共分为两个挑战,Track 1是单人闯关模式,考核标准是最短时间内闯最多的关口。这是今年的新增项目,与以往经典的死亡竞赛不同,需要AI能同时完成探索路径、收集装备、躲避陷阱、杀死怪物、寻找出口等诸多复杂任务,对AI的任务理解和环境认知能力要求极高。在53个国际参赛团提交的204个机器人中,只有6个团队实现了有意义的闯关。
针对该复杂任务,TSAIL团队提出了环境信息引导的分层强化学习技术,在对环境信息有效感知基础上,融合环境反馈和强化学习的奖励信号,引导分层强化学习训练,使得AI闯关表现优异,预赛中以绝对优势保持第一,直至决赛锁定冠军。
第二个挑战 Track 2 是随机对战模式(Death Match),这是VizDoom的传统项目,采用死亡竞赛模式,要求参赛选手在同一个地图里对杀10分钟,AI要在保存自己的同时,尽量多的杀伤敌人。最后用Frags(=杀敌数量-自杀数量)定胜负。清华大学和腾讯AI Lab去年曾参赛并获得优异成绩。今年的比赛喜迎了33个参赛队的152个机器人。
在 Track 2 中,TSAIL团队针对目前强化学习中普遍存在的动作空间大和奖励信号稀疏等问题,更改适配了轻量级物体检测架构YOLO-v3,并与强化学习算法有效融合,极大提高了强化学习的训了效率。预赛竞争异常激烈,TSAIL团队与第二名不断交换领先,最后以0.1个frag优势夺冠。决赛有6支团队参加,包括预赛的前三名、2017年冠、亚军及2016年冠军,TSAIL最终夺得亚军,成绩远超前两届冠军。
参与VizDoom竞赛的意义,首先是探索输入像素级视觉信息,直接输出AI控制策略的强化学习算法。在研究上,这能带动同类任务研究,如无人驾驶、机器人导航和物体追踪等;应用上,可助力同类射击游戏开发,如虚幻竞技场、雷声之锤和刺激战场等,从而拓展人工智能技术的研究和应用领域。
团队介绍——清华大学TSAIL人工智能创新团队
该团队由张钹院士领衔,聚焦人工智能原创性基础理论,团队核心成员包括国家“万人计划”青年拔尖人才、MIT TR 35 中国区先锋者朱军教授、以及胡晓林、李建民、苏航等教师,和30余名在读博士和博士后。经过多年的积累,TSAIL团队在深度学习、贝叶斯学习、强化学习等人工智能基础理论方面取得了一系列创新成果,研发的深度贝叶斯平台“珠算”具有重要的影响力。近年来,TSAIL团队成员在 ICML、NIPS、CVPR、IJCAI 等人工智能领域顶级会议上发表论文一百余篇,先后获得中国计算机学会自然科学一等奖、nvidia先锋实验室等多个重要奖项,和多个国际比赛的冠亚军,是人工智能基础理论研究领域具有重要国际影响力的团队。
延伸阅读——腾讯AI Lab核心方向:游戏AI
游戏AI是腾讯AI Lab的核心研究领域,这是人工智能与博弈论的一个交叉领域,从小来说,它研究如何用AI提升人类玩游戏的体验。从大来说,它研究人、智能体及环境间的复杂交互关系。游戏AI一直在推动人工智能的核心发展,从国际象棋和围棋中AI击败人类高手,现在已转移到更复杂的实时策略型游戏,如《星际争霸》;及多人在线战术竞技MOBA游戏,如《DOTA 2》与《王者荣耀》。
游戏AI研究的奥义——远不止于游戏本身。这是一个富有挑战而令人振奋的研究课题,研究当中累积的经验、方法与结论,能在更广大深远的范围被利用。首先是打通虚拟与现实世界的藩篱,从而赋能物理世界,比如无人车和机器人的发展;其次,游戏中对话智能的研究,或能成为通向强人工智能的重要路径;第三,研究游戏中人、智能体和环境的交互,能让智慧城市这样复杂而意义深远的项目受益。
游戏AI涉及到三个核心能力:对外界环境的感知,根据状态做出的决策,人与智能体之间的对话。比如在围棋的游戏场景,可以通过感知棋盘的全局表达状态决定在哪里落子。而现实中的无人车,同样可以通过视觉,激光雷达的感知对方向盘,刹车等动作做出决策。
理解了游戏AI的三个核心能力,那就可以解释研究中的三个核心挑战及腾讯目前探索的一些解决方案。
第一个挑战是游戏的状态空间过大。比如很多战略型游戏的状态空间是无穷维,远大于围棋空间。腾讯提出了一套整合了模型,算法,与计算体系结构的解决方案,叫做腾讯机器大脑,整个系统的核心是使用深度神经网络来建模超大规模的状态空间。
第二个挑战是许多复杂的多玩家游戏需要多个智能体协调操作,目前这方面理论比较缺乏。为设计出一个完善的多智能体AI,一个核心问题是将强化学习的价值网络与描述宏观战略的行为树进行互操作,并使其融合。
第三个挑战是绝大部分游戏AI是用模拟器在一个理想化的虚拟世界中开发。如何打通虚拟与现实,又是一个核心挑战。我们的解决方案结合反向强化学习及动态探索机制,对游戏AI中的参数进行贝叶斯升级。这样得到的系统能保证在现实世界花最小的成本,就能成功部署。
这一套感知、对话与决策模块,形成了一套通用系统,未来有望在现实中被应用到更多场景中,这就是我们说的虚拟对现实的赋能。