「揭秘」人工智能是如何击败人类作家称霸德州扑克的?

据华盛顿消息,今年早些时候击败四名顶尖职业扑克玩家的人工智能,Libratus利用了一个三管齐下的方法,掌握了比宇宙原子更多决策点的游戏。

「揭秘」人工智能是如何击败人类作家称霸德州扑克的?

在“科学”杂志上发表的一篇研究报告中显示,美国卡内基梅隆大学的研究人员详细介绍了他们的AI如何通过将游戏分解为可计算的可控部分来实现超人的表现,并根据对手的游戏情节,找到其潜在的弱点制定相应的竞争战略。

熟悉AI领域的人都清楚,该程序已经在跳棋、棋牌和围棋中击败了人类中的顶级人物,但所有的游戏都是一种能看到对手棋路的情形。相比之下,扑克玩家则不同,他们需要面对不同的情况,需要与隐藏的信息进行对抗,也不清楚对手实力如何,是否在虚张声势。

一月份在匹兹堡河畔赌场举行的为期12天的20天比赛中,Libratus成为第一个在首席无限德州扑克扑克赛中击败顶级人类玩家的AI,这是一次里程碑式的事件。

Libratus在双人游戏中单独击败了每个玩家,共筹集了超过180万美元的筹码。

「揭秘」人工智能是如何击败人类作家称霸德州扑克的?

研究人员表示,“Libratus中的技术不使用专家领域知识或人类数据,也不是专门用于扑克的技术,它们适用于大量不完美的信息游戏。

这种隐藏的信息的情况在现实世界的战略互动中无处不在,包括商业谈判、网络安全、金融、战略定价和军事应用。

Libratus主要包括三个主要模块,其中第一个模块可以计算出比游戏中的所有可能的决策点(大约10乘以161倍)都更小且更容易解决的游戏。

然后为早期的德州扑克的前几轮制定自己的详细策略,并为后来的游戏制定比较粗略的策略。这个策略被称为蓝图战略。

在游戏的最后一轮,第二个模块根据游戏的状态构建一个新的,更精细的抽象。

它还实时计算这个子游戏的策略,即使用蓝图策略指导来平衡不同子游戏中的策略 - 这是为了实现安全的子游戏解决方案二做的事情。

第三个模块旨在随着竞争的进行而改进蓝图战略。通常,AI使用机器学习来发现对手策略中的错误然后在游戏的过程中利用它们。

但是,如果对手转移战略,那么这也会使AI得到进一步开发。

相反,Libratus的“自我改进模块”会分析对手的赌注大小,以检测Libratus蓝图战略中的潜在漏洞。

Libratus然后添加这些缺少的决策分支,为他们提供计算策略,并将其添加到蓝图中。

除了击败人类职业选手之外,Libratus还针对之前最好的扑克AI选手进行评估。

其中包括由Sandholm和Brown开发的bot Tartanian8,它赢得了与人工智能年会高级协会联合举办的2016年度电脑扑克大赛。

「揭秘」人工智能是如何击败人类作家称霸德州扑克的?

尽管Baby Tartanian8以12(正/负10)mbb /手和24(正负20)mbb /手击败了接下来两项最强大的AI,Libratus以63(+/- 28)mbb /手击败了Baby Tartanian8 。作者指出,DeepStack尚未经过其他AI的测试。

“我们开发的技术在很大程度上是独立于域的,因此可以应用于其他战略性的不完美信息交互,包括非娱乐应用。”Sandholm和Brown总结道,“由于现实世界战略互动中隐藏的信息无处不在,我们相信Libratus中引入的范例将对人工智能的未来发展和广泛应用至关重要。”

这项技术已经独家授权给战略机器公司,由Sandholm公司成立,将战略推理技术应用于许多不同的应用。

Brown和Sandholm撰写的关于嵌套子游戏解决方案的论文最近在“神经信息处理系统”(NIPS 2017)会议上获得了最佳论文奖。 Libratus在2017年高性能计算,网络,存储和分析国际会议(SC17)上荣获“HPCwire最佳人工智能读者选择奖”。

相关推荐