亲述GAN简史:人工智能不能理解它无法创造的东西
选自Wired
作者:Cade Metz
机器之心编译
参与:黄小天、蒋思源
著名物理学家、加州理工学院教授以及畅销书作者理查德·费曼( Richard Feynman)离开人世的那一天,其教室的黑板上写着:「我不能创造的,我也不理解(What I cannot create, I do not understand)。」
当 Ian Goodfellow 解释其在谷歌大脑正进行的研究时,他引用了费曼的这一格言,但他指代的不是自己或者谷歌的任何员工,而是机器:「人工智能不能创造的,其也不理解(What an AI cannot create, it does not understand)。」
Goodfellow 是当今人工智能领域最重要的研究者之一,在 OpenAI (谷歌大脑的竞争者,由 Elon Musk 和 Sam Altman 联合创建)短暂工作之后,他又重返谷歌,组建一个新的研究团队探索「生成模型」,其可以创建图片、声音和真实世界的其他表征。 Goodfellow 同意费曼的观点,认为这一努力是实现所有人工智能的一条重要路径。
Ian Goodfellow 说:「这会促进人工智能学习真实存在的世界结构。」
「如果人工智能对世界的想象包含真实细节,即懂得如何生成真实的图像和声音,这会促进人工智能学习真实存在的世界结构。」Goodfellow 解释说。「世界结构可以帮助人工智能理解其看到的图像或听到的声音。」
2014 年 Goodfellow 还是蒙特利尔大学的一名博士生,在酒吧的一次醉酒争论后,他就已在构想着一种称为「生成对抗网络」或者 GAN 的人工智能技术。然而,醉酒带来了灵感,这是一个十分优雅的想法:第一个人工智能创造逼真图像,第二个人工智能分析其结果,并确定这张图像是真是假。Goodfellow 说:「你可以将此看作是一位艺术家(生成模型)和一位艺评家,艺术家想要愚弄艺评家,使其相信艺术家的生成的图像是真的。」由于第二个人工智能在鉴别图像真假上十分卖力,第一个人工智能可从其学到通过自学无法学到的方式来仿制逼真图像。在这一过程中,这两个神经网络不断推动人工智能前进直到有一天计算机可以脱离人类的指导而存在。
监管 Facebook 整个人工智能研究的 Yann LeCun 说:「GAN 是近 20 年来深度学习领域诞生的最酷想法。」深度学习是人工智能的一个分支,其改变了包括谷歌、微软、亚马逊以及 Facebook 在内的所有互联网巨头的发展发向。Goodfellow 的想法仍然有待完善,但已快速扩展到整个人工智能领域。许多研究者,包括 LeCun,认为他们可以通过它实现「无监督学习」。即这一人工智能研究领域的伟大抱负:实现无需人类直接干预的机器学习。
步入正轨
Goodfellow 是在 Les 3 Brasseurs 酒吧(或者 The 3 Brewers)有了 GAN 的最初想法,当时他的朋友 Razvan Pascanu (现在是DeepMind 的一名研究员)博士毕业, Goodfellow 和许多其他朋友为其送行。他们中的一个人正在描述一个新的研究项目,致力于从数学上界定照片中的一切,即把关于照片的统计学数据输入到一台机器从而使其自行创建图片。Goodfellow 认为有点诡异,说这永远不会奏效——因为有太多的统计学数据要考虑以至于没有一个人可以全部记录下来。但是在这时,他想到了一个更好的方法:神经网络可以教会机器如何创建真实的图片。
神经网络是一个复杂的数学系统,其通过分析大量的数据以学习任务,比如图片中的人脸识别和理解口头语言。站在酒吧之中时, Goodfellow 想到,当第一个神经网络学习创建真实图片时,第二个可以扮演敌手,鉴定这些被生成图片的真伪,并将其判断回馈给第一个神经网络。通过这种方式,他说,可以最终教会第一个神经网络生成与真实图像难以区分的伪造图片。
Goodfellow 的朋友开始反驳,其也同样坚持 Goodfellow 的方法并不奏效。所以当 Goodfellow 晚上回到家后,他构建了 GAN。他还记得「回到家还是有点醉,我就坐在那思考朋友在酒吧说的是错的!后来我彻夜未眠并在笔记本上编写GAN。」Goodfellow 说的这个代码是第一次尝试。他说:「我非常幸运,因为如果当时这个模型失败,也许就放弃了这一个想法。」
他和其他一些研究人员发表了一篇论文,描述那年晚些时候的思潮。随后三年,其他数百篇论文探讨了这一概念。在第一篇论文中,两个神经网络就能产生可以生成手写数字的逼真图像系统。现在,研究人员将这一概念应用到从猫到火山再到整个星系等一切事物的图像中。它甚至能协助天文实验的开展和局部物理学的模拟。
但实现还是非常困难。因为这一系统训练的神经网络不是一个,而是同时训练两个。在谷歌,当 Goodfellow 组建了一个聚焦于 GAN 及其相关研究的团队时,希望精炼研究进程。Goodfellow 说:“作为一名机器学习研究者,我所必须面对的是研究出十分可靠的训练方式。”
最后的结果:远远不只是生成图片和声音,还能识别图像与声音,这是一条实现优秀系统的路径——只需少量人类干预就能学习到更多知识。Goodfellow 说:“这些模型学习理解世界的结构,并在没有过多明确告知的情况下帮助系统学习。”
GAN 甚至可以实现无监督学习,这在今天并不真实存在。目前,神经网络能通过分析数百万张猫的照片而识别出猫,但前提是人类必须在之前小心地区分图像并为猫的照片做上标注。实际上人类在识别过程中参与很多,这也经常是一个难题,即这一问题是有偏见的还是在训练人工智能时确实需要人工干预。像 LeCun 那样的研究者正努力推动无需大量人工干预就能学习的系统,这会加速人工智能的发展。
但这仅仅只是开端。GAN 同时还将带来更多的可能性。南加利福尼亚大学的人工智能研究员 David Kale 认为,这一想法可以帮助他及其研究同事在不侵犯患者隐私的情况下构建健康医疗人工智能。基本上,GAN 可以生成伪造(fake )的健康医疗记录。机器学习系统可以在这些伪造的数据而不是真实数据上进行训练。Kale 说:“我们不能将患者数据放入到人人可用的网上,那么为什么我们不在伪造数据上训练 GAN,并创建一个完全合成的数据集再开放用于其它研究呢?通过这样的方式,任何在合成数据集训练的模型与在原始数据训练的不会有什么区别,我们有什么理由不这样做呢?”
虽然许多研究者在探索 GAN 背后的思想,但 Goodfellow 正打算在谷歌建立一个专门团队。Goodfellow 是离开谷歌到OpenAI(该实验室承诺与世界分享其研究)的研究者之一。但不到一年,他又回到了谷歌,因为他的合作者几乎都在那里。Goodfellow 说:“在视频通话中花费一天的时光并不有趣。这并不是完成工作的最佳方法。”
分享很重要,密切合作也是——不管是人工智能研究者还是神经网络。