强化学习之父:AI研究70年教训深刻,未来探索要靠智能体自己

强化学习之父:AI研究70年教训深刻,未来探索要靠智能体自己

【新智元导读】强化学习之父Richard S. Sutton认为,过去70年来AI研究的最大教训,就是我们过于依赖人类的既有知识,轻视了智能体本身的学习能力,将本该由智能体发挥自身作用“学习和搜索”变成了人类主导“记录和灌输”。未来这种现象应该改变,也必须改变。

近日,强化学习之父、加拿大计算机科学家Richard S. Sutton在其个人网站上发文,指出了过去70年来AI研究方面的苦涩教训:我们过于依靠人类知识了。

Sutton认为,过去70年来,AI研究走过的最大弯路,就是过于重视人类既有经验和知识,研究人员在训练AI模型时,往往想将人类知识灌输给智能体,而不是让智能体自己去探索。这实际上只是个记录的过程,并未实现真正的学习。

事实证明,这种基于人类知识的所谓”以人为本“的方法,并未收到很好的效果,尤其是在可用计算力迅猛增长的大背景下,在国际象棋、围棋、计算机视觉等热门领域,智能体本身已经可以自己完成”规模化搜索和学习“,取得的效果要远好于传统方法。

Sutton由此认为,过去的教训必须总结,未来的研究中,应该让AI智能体能够像我们一样自己去发现,而不是将我们发现的东西记下来,因为后者只会让我们更难以了解发现的过程究竟是怎样的。

强化学习之父:AI研究70年教训深刻,未来探索要靠智能体自己

以下为文章原文:

在过去70年中,人工智能研究中得出的一个最大教训是,通用化的方法最终往往是最有效的,而且能够大幅提升性能。造成这个结果的最终原因是摩尔定律,或者说,是摩尔定律总结出的计算力随时间的变化趋势。

大多数人工智能研究都有个假设前提,即智能体的可用计算力是一个不变的常量,也就是说,提升性能的方法可能就只有利用人类自己的知识了。但是,如果项目周期比一般情况较长时,一定会有丰富的计算力可以投入使用。从短期来看,研究人员可以利用自己掌握的相关领域的人类知识来换取性能提升,但从长远来看,唯一重要的还是计算力。

我们完全没有必要让这两者相互对立起来,但实际上,它们往往就是相互对立的。项目时间有限,把时间花在计算力上,就不能花在人类知识的利用上。研究人员在心理上往往会偏向某一种方式。人类知识方法往往使解决问题的方法变得复杂化,与利用利用计算力得出的通用化方法相比,适应性上不如前者。

不少AI研究人员用了很长时间才明白这个教训,所以我觉得这个问题值得单独拿出来讲一讲。

过去70年AI研究的深刻教训:靠人类知识,远不如靠智能体自己

1997年,IBM的计算机“深蓝”击败了世界冠军卡斯帕罗夫,“深蓝”的开发就是基于大规模的深度搜索。而当时,大多数计算机象棋研究人员采用的方法,都是利用人类对国际象棋特殊结构的理解。

强化学习之父:AI研究70年教训深刻,未来探索要靠智能体自己

当一个简单的、基于搜索的方法在专门的软硬件上显示出强大性能时,彼时基于人类知识的国际象棋研究人员沮丧地表示,这次“野蛮搜索“可能压倒了人类的经验和知识,取得了胜利,但这无论如何不是人们下棋的方式。这些研究人员一直希望基于“人类知识”的方法能够获胜,因为没有实现这一点,他们的失望溢于言表。

计算机围棋中也出现了类似的研究模式,不过比国际象棋迟来了20年。研究人员希望通过人类知识或棋局的独有特征,来避开大规模搜索,但所有这些努力都证明是用错了地方,而且,在搜索大规模应用之后,这种错误显得更加明显了。

同样重要的是,通过智能体的自我学习来学习价值功能。像大规模搜索一样,AI需要通过自对弈和通用学习来提升性能,实现大规模的计算应用。

搜索和学习是在AI研究中利用计算力的两种最重要的技术。在计算机围棋中,研究人员最初的方向也是利用人类知识,搜索用的比较少,很长时间以后,才通过搜索和学习获得了更大的成功。

在语音识别方面,早期的研究利用了一系列基于人类知识的专门方法:词汇、音素、人类声道知识等。而比较新的方法更偏向统计性,并且计算量更大,基于隐马尔可夫模型(HMM)。与国际象棋和围棋一样,在语音识别领域,同样是统计方法战胜了基于人类知识的方法。这导致所有NLP研究在近几十年内发生了重大变化,统计和计算在这一领域占据了主导地位。最近的语音识别领域中,深度学习的兴起是这个趋势的最新体现。

深度学习方法对人类知识的依赖更少,应用了更多的计算,以及对大量训练集的学习,生成性能更高语音识别系统。和棋类对弈一样,研究人员一开始总是想让系统按照人类的思维的方式运作,试图将人类知识放输入系统,但事实证明,最终是适得其反,而且极大地浪费了研究人员的时间。随着计算力的迅速增长,研究人员也找到了能够高效利用计算力的方式。

在计算机视觉领域也是如此,早期研究将“视觉”设想为搜索的边缘或广义圆柱体。但今天这一切都被抛弃了。现代深度学习神经网络仅使用卷积和某些不变性的概念,并且表现得更好。

这是一个很大的教训。我们仍然没有完全理解这个领域,因为我们会继续犯下同样的错误。要看到这一点,并从中总结教训,即建立我们认为理解自身思考方式的体系,从长远来看解决不了问题,AI研究从重“人类知识”到重“计算和搜索”的演进过程,已经证明了这一点。

回顾过去,我们可以总结出下面几点认识:

1)AI研究人员经常想要将知识传给智能体

2)这个方式在短期内总是会有效,研究人员本人可以获得满意结果。

3)从长远来看,这种方式对未来的性能提升没有帮助,甚至有阻碍作用,

4)AI的突破性进展最终要通过基于搜索和学习进行规模化计算的方法来实现。

对于AI研究而言,最终的成功可能反而会充满了苦涩,很多人往往理解不了,因为它战胜的是“以人为本”的老方法。

要让智能体自己去搜索和发现,而不是靠人类

通用方法具备强大功能,即使可用计算力已经非常强大,我们仍然可以通过增加计算力来扩展的方法。而基于计算力的搜索和学习可以按照这一方向任意扩展下去。

第二个教训是,人类思维的实际内容的复杂程度是无可比拟的,我们不应该在尝试寻找关于思维内容的简单方法,如对空间、对象,多智能体或对称性的思维内容的简单方法。

所有这些在本质上都是复杂的外部世界的一部分,它们的复杂性是无穷无尽的,我们应该集中精力构建可以找到并捕获这种任意复杂性的”元方法“。构建这种“元方法”的关键在于,智能体能够找到很好的近似结果,但是具体执行搜索、进行发现的应该是智能体自己,而不是我们。我们希望AI智能体能够像我们一样自己去发现,而不是将我们发现的东西记下来,因为后者只会让我们更难以了解发现的过程究竟是怎样的。

作者简介:

Richard S Sutton是加拿大计算机科学家,阿尔伯塔大学计算机科学教授和iCORE主席。 他被认为是现代计算强化学习的创始人之一,在时间差异学习和政策梯度方法方面,对该领域做出了重要贡献。

参考链接:

http://www.incompleteideas.net/IncIdeas/BitterLesson.html

相关推荐