2000块GPU训练一个围棋AI,Facebook告诉你什么叫“真的壕”
作者 | 阿司匹林
出品 | 人工智能头条(公众号ID:AI_Thinker)
2015 年 11 月,Facebook 发表论文“Better Computer Go Player with Neural Network and Long-term Prediction”,提出了一种将蒙特卡洛树搜索和深度强化学习结合的方法。随后,基于这种方法的围棋 AI——DarkForest,在 2016 年 1 月举行的KGS 锦标赛上获得了第三名。
不过,Google 随后就放了一个大招。
2016 年 3 月,AlphaGo 一战封神。AlphaGo Zero、Alpha Zero......Google 通过收购 DeepMind,奠定了其在围棋 AI 领域的霸主地位。
目前很多国内的围棋 AI 都是借鉴了 DeepMind 的成果,比如微信翻译团队最新推出的 PhoenixGo 就是基于 AlphaGo Zero 论文的实现。
为了推广自己的 game research 框架——ELF,Facebook 也放下了身段,在 ELF 上对DeepMind 的 AlphaGoZero 及 AlphaZero 的算法进行了重现,取名为 ELF OpenGo,并在近日宣布开源。(代码地址:https://facebook.ai/elf)
在《何恺明等在图像识别任务上取得重大进展,这次用的是弱监督学习》这篇文章里,笔者已经提到,为了在图像识别任务上有所进展,Facebook 使用了数十亿张图片以及 336 块 GPU,有读者留言说,“有钱真是可以为所欲为”。
不过,ELF OpenGo 这次使用了 2000 块 GPU,一共训练了两到三周的时间。感谢 Facebook,让我们知道什么才是真的壕。
那这个 2000 块 GPU 训练出来的围棋 AI 到底有多厉害呢?
ELF OpenGo 的主要贡献者田渊栋给出了答案:
我们最近改进了 ELF 框架,并且在上面实现了 DeepMind 的 AlphaGoZero 及 AlphaZero 的算法。用两千块 GPU 训练约两到三周后得到的围棋AI,基本上超过了强职业的水平。我们和韩国棋院合作进行了一次测试,给这个 AI 单卡每步 50 秒搜索时间(每步搜索 8 万个局面),给人类棋手任意长时间思考,结果 AI 以 14 比 0 完胜。参与测试的棋手包括金志锡,申真谞,朴永训及崔哲瀚。
另外我们也和现在著名的 LeelaZero 比较了下。我们采用了 LeelaZero 除 ponder 外的缺省配置,及 4 月 25 日的公开权重(192x15, 158603eb),结果我们的 AI 以 200 比 0 获胜。(编者注:目前 Facebook 官方博客上已经更正为 198:2)
嗯,确实很厉害。不过,笔者闻到的都是 money 的味道。
如果你只有一块 GPU(而且也不便宜),要想训练出一个 ELF OpenGo 得花多少时间?差不多 77 年。2015 年,中国人口平均预期寿命为 76.34 岁,真的是一生的时间。
当然,就算你有 2000 块 GPU 可以调用,但是电费也是一笔不小的开支。一位网友估算,训练一个 ELF OpenGo 要消耗 148 MWh 的电量,可以为 148000 户家庭供电一小时。
实验证明:钱是个好东西。
最后,在今天这个日子里,“愿中国青年都摆脱冷气,只是向上走”,以及不再“为钱所困”。(根据世界卫生组织确定新的年龄分段,青年人的年龄上限已经提高到 50 岁)