新版阿尔法狗从零开始40天称王：自学3天赢“前辈”

三节课

2017-11-29

关注关注

新版阿尔法狗从零开始40天称王：自学3天赢“前辈” 5月23日，浙江乌镇，“阿尔法围棋-大师”大战韩国围棋选手柯洁。图/视觉中国

原标题：新版“阿尔法围棋”从零开始40天称王

据新华社电人工智能“阿尔法围棋”在几次世界瞩目的人机大战后站在围棋之巅，又以一种新的方式超越了自己：新版本“从零开始”学习围棋，仅用3天就击败前辈版本，40天成为新的王者。

自己与自己对弈

英国“深度思维”公司开发出“阿尔法围棋”，该公司团队在新一期英国《自然》杂志上发表题为《在没有人类知识条件下掌握围棋游戏》的论文，介绍了最新版的“阿尔法围棋-零”。

该公司将“阿尔法围棋”的发展分为四个阶段：第一个版本是“阿尔法围棋-樊”，它在2015年战胜欧洲围棋冠军樊麾，标志着人工智能首次战胜人类职业棋手；第二个版本是“阿尔法围棋-李”，它在2016年战胜曾多次夺得世界冠军的韩国棋手李世石，标志着人工智能战胜人类顶级棋手；第三个版本是“阿尔法围棋-大师”，在今年战胜现在世界排名第一的柯洁，并在与多位有世界冠军头衔的人类棋手“群战”中完胜。

这些版本在刚开始学习围棋时，都要依靠人类知识，即先教它们一些人类摸索出的基本下法，然后再开始自己学习。

“阿尔法围棋-零”摆脱了这个限制，研究人员没有给它除棋盘和棋子外的任何输入，它完全是“从零开始”，自己与自己对弈，通过更为优秀的算法，取得飞速进步。

自学3天即击败“前辈”

开始学习围棋3天后，“阿尔法围棋-零”就以100比0的成绩战胜“阿尔法围棋-李”；40天后，它又战胜了在所有人类高手看来已不可企及的“阿尔法围棋-大师”。

研究人员认为，从需要预先输入人类知识，到能完全依靠自己摸索，“阿尔法围棋”的进步标志着人工智能的巨大突破，这意味着人工智能可以更好地进入对它来说本是一片空白的领域。

“深度思维”公司首席执行官哈萨比斯说，他希望人工智能的这种进步能够被用于分析蛋白质结构、设计新材料等领域，为人们生活带来积极有益的影响。

揭秘

“阿尔法围棋-零”如何自学成才？

“深度思维”（DeepMind）团队发表的论文提到，“阿尔法围棋-零”最大突破在于，实现“白板理论”。

白板理论认为，婴儿是一块白板，可以通过后天学习和训练来提高智力。人工智能(AI)的先驱图灵认为，只要能用机器制造一个类似于小孩的AI，然后加以训练，就能得到一个近似甚至超越人类智力的AI。

与经过亿万年演化的生物体相比，计算机是真正的“白板一块”。自学成才的“阿尔法围棋-零”正是实现了这一理论。

如何让机器从零开始获得智能？

论文中提到，“阿尔法围棋-零”是无监督学习的产物（机器自己摸索、发现规律），而它的双胞胎兄弟“阿尔法围棋-大师”则用了监督学习的方法（人把经验教给机器）。40天后，前者以89:11的成绩战胜后者。

除学习原理外，新版本“阿尔法围棋-零”使用了单一的神经网络。

此前版本的“阿尔法围棋”都用了两种神经网络：一种用来预测下一步棋最好的走法，另一种用来计算，根据这些走法谁更有可能获胜。

“阿尔法围棋-零”则只让神经网络预测获胜者，从而能够得到更高效的训练和评估。它也不再使用快速而随机的走子方法，而是通过高质量的神经网络来评估棋局。它和不同版本的自己下棋，然后用胜者思路来训练新的版本，如此不断重复。

通过这一方法，“阿尔法围棋-零”完全摸索出开局、收官、定式等以前人类已知的围棋知识，也摸索出新的定式。(新京报记者黄钟方辰潘佳锟)

阿尔法人工智能围棋围棋人机大战李世石阿尔法围棋

安科网

新版阿尔法狗从零开始40天称王：自学3天赢“前辈”

三节课

三节课

相关推荐

基金里的 Alpha（α）是什么？

你的孩子与清华学霸的距离，可能就是一颗“蛋”

币圈量化是陷阱？跑路团队不断，盈利的不到5%

有了Python，我能叫出所有猫的名字

今日芯声｜五年后，人类将“零隐私”

DeepMind创始人：阿尔法GO的胜利只是小目标

“阿尔法币”风云：林日博士在华盛顿大学演讲谈区块链未来趋势

阿尔法·罗密欧Stelvio: 被埋没的运动型SUV

星光大道小冠军, 5年为老家捐款300多万, 19岁沦为路人!

国产“颜王”诞生, 受关注度完爆阿尔法, 宝骏730强劲对手

对比数据告诉你, 中国的暗物质粒子探测卫星“悟空”到底有多牛?

舒适豪华程度可媲美丰田阿尔法的日产君爵

暗网迷踪：吞噬一切强大到设计者都无法销毁

三节课