柯洁第二局投子认负,专访开发者导师Martin Müller
机器之心原创
参与:李泽南、杜夏德
今天下午 13:37,「中国乌镇·围棋峰会」人机大战的第二场比赛落下帷幕。在耗时 3 小时 7 分钟的比赛后,柯洁投子认负,AlphaGo 取得了胜利。
在 23 日的首轮比赛中,AlphaGo 以四分之一子的优势,击败了世界第一人类围棋手柯洁。赢得比赛后,这场人机大战引起了人们广泛的关注和讨论。DeepMind 也在赛后分析解读了 AlphaGo 背后的技术,表示当前版本 AlphaGo Master 的棋力,较与李世乭对弈的 AlphaGo 版本有三子提升,就连柯洁本人也在微博上表达了自己的「震惊」:
经过了一天的休整,今天上午 10:30 第二轮 AlphaGo 与柯洁的比赛正式开始,机器之心记者再次来到比赛现场见证这场「世纪之战」。和第一局比赛一样,在现场报道之外,机器之心还邀请到阿尔伯塔大学教授、计算机围棋顶级专家 Martin Müller 以及《深度强化学习综述》论文作者李玉喜博士,共同观看了比赛直播。
在观战的同时,机器之心就第一天比赛后读者关心的一些问题向 Martin Müller 教授进行了采访,更为细致地解读这场人机大战。
Martin Müller 教授(中)所带领的团队,在博弈树搜索和规划的蒙特卡洛方法、大规模并行搜索和组合博弈论方面颇有建树,David Silver 与黄士杰(Aja Huang)都曾师从于他。李玉喜博士(右)是加拿大阿尔伯塔大学计算机系博士、博士后,致力于深度学习、强化学习、机器学习等前沿技术及其应用。
5 月25 日上午 10:30,第二局比赛开始,中国棋院院长华以刚主裁,由古力搭档张璇、周睿羊(阿尔法羊)搭档刘菁讲解,围棋大师聂卫平也来到了比赛现场。
黄士杰博士代 AlphaGo 执黑棋在右下角先落一子,柯洁执白点了三三,随后 AlphaGo 走了左下三三。AlphaGo 的大局感依旧,虚招上很难猜测。在前几步布局之后,两方很快在局部展开争斗,局面变得极为复杂。
在左下角出现打劫情形后,Hassabis 表示,此时在 AlphaGo 的计算中,柯洁的表现是完美的。
随后 AlphaGo 和柯洁围绕打劫展开了博弈,但在 AlphaGo 下出第 133 手后,局面开始逐渐向计算机倾斜。之后柯洁的一步失误进一步加大了 AlphaGo 的优势,并将优势转换为胜势,为这个优势一直延续到比赛结束,确定了 AlphaGo 的最终胜利。行至 154 步,柯洁投子认负。
AlphaGo 的获胜已经毫不令人意外了,甚至我们已经可以预料到后天(即 GMIS 2017 大会的第一天)最后一场比赛的结局了。明天,除了古力+AlphaGo 对战连笑+AlphaGo 的人机配对赛外,AlphaGo 还将和人类棋手展开配对赛和单挑五位职业棋手联盟。AlphaGo 在与人类合作以及对抗人类集体智慧上还将有什么出人意料的表现和结果,让我们拭目以待。
在第一天直播过程中和比赛结束之后,机器之心就观众们关心的几个问题对 Martin Müller 进行了采访,整理如下:
关于第一局比赛
机器之心:柯洁和 AlphaGo 的差距是否只有 1/4 子那么小?
Martin Müller:大多数职业棋手认为 AlphaGo 在第一盘棋的中期已经获得了很大的领先优势,于是它在后期选择了保守策略,并保持住了领先,所以人和电脑的棋艺差距并不能用 1/4 子来衡量。但是我们无法知道 AlphaGo 在想什么,无法知晓它的真正策略是否在最后选择了「保守」。
机器之心:AlphaGo 已经是让人类九段 3 子的水平?
Martin Müller:昨天,DeepMind 随后在补充说明中表示,让 3 子的水平是 AlphaGo 与旧版 AlphaGo 对弈的估算结果,并不能代表真实水平。因为同类型系统自我对弈可能无法发现一些潜在的问题。如果是与其他计算机系统,或者棋手下棋,AlphaGo 会面临其他棋风,它的对手们可能会发现一些系统的盲点,从而取得优势。所以我们不能认为 AlphaGo 的水平已经达到让全人类 3 子了。
机器之心:DeepMind 在昨天的发布会上表示新一代 AlphaGo 是单机版,只需要 4 个第一代 TPU,效率提升了 10 倍。你认为它是如何做到的?是否会为了效率牺牲了准确度?
Martin Müller:AlphaGo 的确是在去年有了很大的提升,在与李世乭比赛结束后,DeepMind 中的一个我的学生告诉我,他们当时还有很多的改进方法因为没有足够时间无法实施,现在经过了一年时间,他们有足够的时间来改进这个系统,10 倍效率的提升果然不同凡响。
AlphaGo 背后的技术
机器之心:如何更好地描述 AlphaGo 机器学习算法和蒙特卡洛树搜索之间的关系?
Martin Müller:AlphaGo 的学习过程是线下的。它通常是先发展出若干神经网络,留在比赛中使用。蒙特卡洛树搜索(MCTS)是其主要的决策算法,用于决定一局比赛中每一步棋。MCTS 结合了博弈树搜索、机器学习到的知识和模拟的全局游戏来决定每一步。这些知识中最重要的部分是上面提到的深度神经网络。其中有一个网络(策略网络)选择搜索中最有希望的走子,另一个网络(价值网络)可以评估其在搜索中遇到的数千乃至数百万个棋盘局面。
机器之心:从与李世乭的比赛到现在,AlphaGo 有何改进?
Martin Müller:我不知道细节,而且也正急切期待 DeepMind 发布相关信息。但我听说最重要的改进是使用机器学习创建博弈训练的过程。在之前的版本中,这些训练博弈是通过一个强大的策略网络创建的,没有任何搜索。在这个新版本中,这些博弈是完全使用 AlphaGo 引擎创建的。这会慢很多,因为其每一步都涉及到一次树搜索,但其可以产出质量高得多的博弈,从而可以基于此学习到下个版本的 AlphaGo。然后再重复这个过程。
机器之心:人工智能科学家能够把 AlphaGo 的机器学习算法用到其他研究或应用中吗?
Martin Müller:是的。深度卷积神经网络的思想实际上来自于图像处理,而由于其视觉的本质,其已经在围棋中得到了应用。AlphaGo 中所使用的另一种强大的学习方法是强化学习,这是目前最热门的主题之一。更一般而言,结合了机器学习到的知识和深度搜索与模拟技术的现代启发式搜索方法在许多决策问题上都有很大的潜力。
机器之心:Hassabis 昨天说要把相关技术开源,这是否会催生出新的技术进步?
Martin Müller:DeepMind 提到会在下个月
未来及其它
机器之心:在柯洁与 AlphaGo 的比赛结束后,你有何期望?
Martin Müller:柯洁已经声明说这将是他与人工智能最后的比赛。我希望他会改变他的想法。
我希望 DeepMind 将会将 AlphaGo 的权限提供给每一个人,比如,通过谷歌云。
这个团队承诺会发布有关当前版本背后的科学的文章,人工智能研究者都很期待。
其它围棋程序开发者将非常想跟上 AlphaGo 的脚步。尤其是,腾讯有一个强大的人工智能团队,他们已经开发出了当前世界第二的程序绝艺(FineArt)。我认为在 DeepMind 引领的进步的带动下,我们将很快就会有多个超人水平的程序。我希望它们其中一些将会开源,而且我期待看到未来它们之间的精彩比赛。
机器之心:对明天史无前例的团体赛的展望?
Martin Müller:我觉得团体赛有点像婚姻(笑),能否成功取决于队友之间的配合程度,如果之前五名棋手有过针对性的训练,结果应该会比一个人要好。
而与 AlphaGo 配合共同进行比赛会非常地有趣。在国际象棋运动中,也有过人类与计算机配合共同下棋的经历,事实证明与计算机配合可以减少两方的错误,提高总体水平。但对于围棋而言,对弈双方面临着更复杂的局面,所以这种组合是否能够将围棋水平提升到一个新的高度还是未知的。