Bengio TED演讲:无监督学习是深度学习突破的关键
选自TEDx
机器之心编译
参与:李亚洲、吴攀
在 2016 年 9 月 24 日举办的 TEDxMontreal 2016 上,深度学习领域的著名学者 Yoshua Bengio 发表了主题为《使用深度学习的人工智能的崛起(The Rise of Artificial Intelligence through Deep Learning)》的演讲。近日,TEDx Talks 官方在 YouTube 上发布了该演讲的视频。机器之心在本文中对该演讲的主要内容进行了整理介绍。
演讲主题:在深度学习进步的推动下,人工智能领域正在发生革命。我们离实现人类水平的人工智能还有多远?我们未来还面临着怎样的难题?Yoshua Bengio 相信每个人都应该理解人工智能的基本思想。民主化这些问题是很重要的,这样在面临人工智能将带来的重大变革时,我们的社会才能做出最好的集体决策,以使这些变革能有利于我们所有人。
我们的世界一直在发生变化,其中对未来会有巨大影响的一件事就是人工智能,它将带来另一场工业革命。
之前的工业革命增强了人类使用机械的能力,而此次第二波的机器纪年(Machine Age)将会增强我们的认知能力与心智(mental power)。计算机不只是要替代体力劳动力,还有脑类劳动力。所以,我们今天到了哪一步?
你可能在去年三月份听过,一个名为 AlphaGo 的机器使用深度学习击败了世界围棋冠军。围棋是中国古老的棋类游戏。对计算机而言,围棋要比象棋更难掌握。经过十几年的人工智能研究,我们是如何做到的呢?
首先,通过反复观看强大的人类棋手所下的千万手棋来训练 AlphaGo,然后自我博弈百万局。机器学习使得机器能从样本、数据中进行学习,它是将知识填充到计算机中的关键。这非常的重要,因为有知识才能产生智能。
向计算机填充智能曾是先前人工智能方法的难题。为什么呢?因为大脑中的许多东西都是直觉性的,我们无法用言辞表达它们,对这种直觉性知识没有意识过程。那如何向计算机编程这种知识呢?解决方案又是什么?
解决方案就是让计算机自己去学习这种知识,就像我们人类一样。
我的工作对发现、理解通过学习的智能的原理有所贡献,无论是人类、动物还是机器学习。
我和其他人相信,机器学习像物理学一样,有一些简单的理论能解释智能并帮助我们建立智能机器。例如,空气动力学,它足够综合,能够解释鸟类、飞机的飞行原理。如果能够发现一种简单的理论解释智能,是不是很惊人?现在,我们已经有所进展了。
我和我的合作者在神经网络与深度学习领域的研究对人工智能革命有所贡献,它们是机器学习的一种方法,受启发于大脑。深度学习的崛起开始于 2012 年,手机上的语音识别使用到了神经网络。不久之后计算机视觉也迎来突破,计算机如今在识别图像中内容上已经做的非常好了,甚至过去五年在某些基准上已经达到人类的水平。现在,计算机能够直观的理解一个围棋棋盘视觉外观,这种能力可媲美于最好的棋手。
最近,随着我所在室验室的一些发现,机器翻译也用到了深度学习。这项工作扩展了计算机理解、生成自然语言的能力。但不要被欺骗了,我们离一台全能的机器还非常遥远。例如,计算机还不能像一个 2 岁儿童那样学习,事实上 2 岁的儿童能掌握直观地物理世界,她知道丢球时球会下落,泼水时会一团混乱,但她的父母并为教过她牛顿力学或微分等式。她以无监督的方式自己学习了这些知识。
无监督学习是现在人工智能的一个重大挑战,可能还要花费数十年的时间才能解决。无监督学习尝试找到数据的表征,让我来演示一个例子。
我们眼睛看屏幕上的页面,在计算机看来就是一张图片,一堆的像素。为了回答关于此图像内容的问题,你需要了解它的高层含义,这种高层含义对应大脑中的最高层表征。向下,你了解单个词的含义;更往下是组成单词的字符,这些字符可用不同的笔触、不同的方式进行渲染;而笔触由 edges 构成,edges 由像素构成。所以里面有不同层级的表征。
但像素来表达图像的含义还不够,还不能回答有关图像内容的高级问题。你的大脑其实有这些不同等级的表达。从皮质的首个视觉区域 V1 中的神经元开始,识别 edges。皮质的第二个视觉区域 V2 识别笔触和小形状。更高级别上,你有检测物体部位的神经元,然后是整个物体和全部画面。
使用图像训练神经网络的时候,它们实际上就能够发现这些不同层级的表征,与我们在大脑中观察到的一样。我们大脑中的神经网络与机器中的深度神经网络都能学习不同层级表征间的转换,用更高的层级对应更抽象的概念。例如字母 A 的抽象概念可用低等级的不同方式进行渲染,因为许多像素的构成由位置、旋转、字形等决定。
那么我们如何学习高等级表征呢?
深度学习应用中如今比较成功的一件事是监督学习,人类需要告诉计算机许多问题的答案。例如在大量图像上,人类需要告诉计算机这是狗的图片、这是猫的图片,以及电脑、键盘等。这是一个非常痛苦的过程,我们通过众包来做。同时,这又非常强大,我们已经能用它解决许多有趣的问题了。
尽管这非常强大,而且我们已经能解决许多有趣的问题了,但人类仍然还是强大得多——他们可以以一种远远更加自动化的方式学习世界的远远更多的不同方面。就像我们看到二岁孩童也能学会直观的物理知识一样,无监督学习可以帮助我们解决自动驾驶汽车的问题。让我解释一下。无监督学习允许计算机投射未来的状况,即基于当前状况生成可能的未来,并且可以允许计算机为它们之前从未训练过的情形提前进行推理和规划。这是非常重要的,因为如果我们用的是监督学习,我们就必须告诉计算机汽车可能遭遇的所有情形以及人类在那些情形中会做出的反应。
我们是怎样学会避免危险的驾驶行为的?我们必须在事故中死上几千次才行吗?这就是我们现在训练机器的方式。我们需要做的是训练我们的模型去生成可信的图像、可信的未来,具有创造力。在这方面,我们正在取得进展。我们正在训练这些神经网络将高级的含义转变成像素,而不是从像素转变成高级的含义。
因此以这种方式按另一个方向通过不同层面的表征时,计算机可以生成新的图像,这些图像不同于该计算机之前训练时所见过的图像,但仍然很可信,看起来就像是真实的自然图像一样。
我们也可以使用这些模型来「梦想」奇怪的事物和恐怖的画面,就像是我们的梦境和噩梦一样。
这里给出了一些计算机使用这些深度生成模型合成的图像。它们看起来就像是真实的自然照片,但如果你看仔细一点,你会看到它们还是不同的,它们还是缺少一些我们会将其看作是「自然的」的细节。
大约十年前,无监督学习就已经成为了我们在深度学习领域实现突破的一个关键。这些突破仅仅发生在少数几个实验室,包括我的实验室。那时候,神经网络还并不流行,几乎已经被科学界给抛弃了。现在情况已经发生了很大的变化。这已经变成了一个非常热门的领域。每年都有数百名学生申请我的实验室及合作伙伴的研究生。蒙特利尔已经变成了世界上最大的深度学习研究者聚集地。我们刚刚收到了一大笔研究资助,共 9400 万美元,来推动人工智能和数据科学的前沿研究以及推动深度学习和数据科学技术向工业界的转化。受到这些技术激发的商业人士正在创造创业公司和工业界的实验室,其中很多都与大学走得很近。比如说,就在几周前,我们推出了一个创业公司工厂 Element AI,其将专注于深度学习的应用。
深度学习专家的数量还不够,所以他们得到的报酬高得惊人。我许多前学术界的同事都从企业公司拿到了非常慷慨的交易,以在企业的实验室工作。我自己选择呆在大学,为公共福利而工作,和学生一起工作,以保证独立性和引导下一代深度学习专家。
除了商业价值之外,我们还在做的另一件事情是思考人工智能的社会影响。现在我们许多人都开始将目光转向能增加社会价值的应用,比如健康。我们认为我们可以使用深度学习来实现个性化医疗,从而提升治疗。我相信未来随着我们从数百万乃至数十亿人身上收集到的数据越来越多,我们将能为数十亿现在还没法获得医疗服务的人提供医学建议。现在我们可以想象人工智能在社会价值上的许多应用,比如一些来自我们自然语言理解方面的研究成果将能为那些无力负担法律服务的人提供各种法律服务等等。现在我的团队已经将目光投向了人工智能的社会影响,但思考这个问题并不是专家的专利。我相信在数学和行业术语之外,普通人也能足够理解隐藏在下面的基本思想,从而参与到将在未来数年和数十年到来的关于人工智能的重大决策中来。
所以请拿出一点时间和空间,让你自己学习了解它。我和我的合作者已经写出了好几篇入门论文和一本名为《Deep Learning》来帮助学生和工程师进入这个激动人心的领域。另外还有很多在线的资源可用,比如软件、教程、视频。许多大学学生在自学深度学习,从而对这些研究有了很好的了解,并在后来加入了排名前列的实验室,比如我的实验室。
人工智能将会对我们的社会产生重大的影响。所以必须要问:我们将如何使用它?它既有可能带来极大的益处,也可能带来极大的负面影响,比如军事用途、对就业市场的颠覆。确保未来几年我们做出的关于人工智能的集体选择将有益于所有人应该在人工智能塑造我们未来的方式上扮演积极的角色。