为什么纸牌游戏Hanabi是人工智能的下一个挑战?
人工智能(AI)已经称霸了不少世界上最复杂的游戏,击败了国际象棋、围棋、甚至是星际争霸II等即时战略电脑游戏中的顶级玩家,但其软肋却是一些看似简单的游戏,一些需要具备沟通和合作能力的游戏。
这一情况可能即将发生改变。
谷歌母公司Alphabet的谷歌大脑项目和DeepMind的研究人员开发了曾在围棋和星际争霸II中击败人类的AI程序,现在他们将目光投向了一款新游戏:Hanabi(花火),一种玩家互相合作的纸牌游戏。这款游戏根据玩家在比赛中的沟通情况来确定每个人是赢还是输。
参与该项目的研究人员认为,弄清楚怎样玩好Hanabi,这对于人工智能来说可能是一个重大进步,并且有助于其在聊天和自动驾驶等应用场景中与人类进行更加流畅的互动。
“在日常生活中,人们一般不会相互竞争,而更多的是进行沟通和合作,”牛津大学研究员Jakob Foerster说,他在2月份合作发表了一篇相关论文。他还说,“Hanabi是一个关于沟通和合作的游戏,人工智能目前还没有深入这一游戏领域”。
游戏提示
Hanabi游戏发明于2010年,由二到五个玩家参与,玩家需以正确的顺序一起打出五种不同颜色的牌。游戏特点:所有玩家都可以看到对方的牌,但却看不到自己的牌。
根据游戏规则,玩家可以互相提示自己手里的牌(但仅限于牌的颜色或数字),让其他玩家可以推断他们应该出什么牌,但提示的次数是有限制的。
正是这种高效沟通的行为使Hanabi具备了一种科学魅力。例如,人类可以很自然地理解其他玩家的提示,哪张卡片是可出的,但是机器本质上无法理解这些提示。
Nolan Bard是DeepMind项目的研究员,也是上面提到的论文的合作作者。他认为,“这些合作式的游戏各不相同且难度很大,因为为了玩好游戏,你需要与所有玩家进行协作,共同就某种游戏方式达成一致。
到目前为止人工智能程序已经可以在玩Hanabi花火游戏时赢得很高分数,但只限于与其他类似的智能机器人一起玩。在不熟悉其他玩家的游戏风格或者有 “临时”(从未一起玩过的)玩家的情况下,对程序的挑战最大,也更接近真实情况。
假设和推论
根据研究人员的说法,人类在不断构建一种关于他人的“心理认知”,即假设其他人像我们一样思考和行动,并以此为基础预测其行为。例如,当有人站在街角时,路过的司机会认为她正在考虑过马路。
研究人员认为,在人工智能中植入这样的认知能力可以改善自动驾驶车辆在遇到新情况时的行为方式,使其能够明白人们的行为背后意味着他们可能想做什么。例如,智能机器人可以学习并理解对话中的语境,以便推断说话者的想法。
为了阐明人工智能目前还缺乏这种能力,Bard博士使用一台已经训练好的计算机来玩石头剪刀布游戏。计算机出石头、剪子和布的次数将相同,并预计有一半的机会会赢。
但是如果其人类对手每次都出同样的手势,那么标准的算法就无法理解人类对手的想法,并据此转变其策略。Bard说,计算机要在玩了10回后才会意识到人类总是出石头而它应该出布。
在其他游戏方面,人工智能程序在桥牌游戏中已经取得了进展,但还不是玩得很好,部分原因在于人工智能还需要沟通技能。许多纸牌类游戏都存在类似的问题,机器很难分辨玩家行为背后所隐含的信息。
位于旧金山的OpenAI是由诸多硅谷大亨联合建立的人工智能非营利组织,其工程师Jeff Wu开发了一种智能机器人,用一种称为“猜帽子”的策略来玩Hanabi。这种策略以复杂的方式向其他玩家给出提示,告诉这些玩家哪些牌可以打。
注:“猜帽子”这个名字取自一个流行的逻辑训练,即一群人试图猜测他们每个人头顶帽子的颜色。
尽管Wu的机器人在玩Hanabi时分数很高,但他认为要使Hanabi机器人拥有可以和未知对手合作的认知能力仍然是一个巨大的挑战。
“在玩猜帽子时,机器人没有认知能力,它们心中只有自我以及其副本的概念,如果你只是自己跟自己玩,这是可以的,”Wu说。“但如果你试图开发一个真正具有心理认知能力的机器人,并且它可以明白其他人在思考和做什么,那将是个大挑战。”
DeepMind的Hanabi研究小组创建了一个开源平台,人们可以在其上测试相关的人工智能程序和算法,但小组成员并不期待很快能找到解决方案。Foerster博士说,如果只花了五年的时间就可以使人工智能具备能力和未知玩家进行游戏,他觉得不靠谱。
尽管如此,纽约大学副教授Julian Togelius表示,像Hanabi这样的游戏是创新的沃土。“随着其不断发展,游戏设计已经成为人类智力能力发展的持续反映,”他说。“如果存在某种形式的人工智能场景,那么就会有人适时地设计出一种能够运用这种场景的游戏。”