「凡是过往,皆为序章」64岁RODNEY BROOKS谈人工智能起源与发展
我们距离通用人工智能还有多远?这是一个很多人都在试图回答的问题。然而对于人工智能领域的真正从业者来说,我们面前的道路还很长。Rethink Robotics 创始人,前 MIT CSAIL 主任 Rodney Brooks 近日撰文对人工智能的起源和发展进行了简要介绍,并对 AI 的未来进行了展望。Brooks 指出:在人工智能领域里,我们现在甚至连起步都算不上。
Yann LeCun 对此评论道:「很棒的文章!…… 我们还很难向非专业人士解释通用人工智能(AGI)『还没有做出成果』,而以 AGI 命名的大多数事物都具有高度投机性,这些戏剧性的问题有时会显得天真、自我欺骗、疯狂或具有欺骗性。」
凡是过往,皆为序章。
莎士比亚在《暴风雨》中借安东尼奥说出这句话时,人们对此有两种解释。
一种解释是,过去决定后续将要发生的事。我相信,我们在人工智能领域的现状将决定我们接下来的方向。所以,研究过去是值得的。
另一种解释是,过往其实并不重要,大部分重要的事情都在接下来的未来发生。我也相信这种解释。在人工智能领域我们甚至连起步都算不上,未来还有很多艰难工作要做。
早期
业内普遍认为,人工智能一词是 John McCarthy 在 1956 年达特茅斯会议上一份提案中提出的。按照顺序,作者依次是达特茅斯学院的 John McCarthy、哈佛大学的 Marvin Minsky、IBM 的 Nathaniel Rochester 以及贝尔实验室的 Claude Shannon。之后,除了 Rochester,其他三位作者都在 MIT 担任教职,McCarthy 在 60 年代初离开,去了斯坦福大学。这份 19 页的提案有 1 页标题页、6 页导言,然后是每个作者提议的研究。据推测,McCarthy 写了前面 6 页,包括 Rockefeller Foundation 提供的覆盖 10 个研究员的资金预算。
该提案的标题是 A PROPOSAL FOR THE DARTMOUTH SUMMER RESEARCH PROJECT ON ARTIFICIAL INTELLIGENCE。提案第一段有一句话提到了「智能」:
该研究基于这种猜想:学习的每个方向或者智能的任意特征理论上都能被准确描述,且能制造出一种机器来模仿它。
第二段第一句也提及:
以下是人工智能问题的一些方面:
就是这样!没有对人类智能的描述,没有说明机器能否做到(即「实现智能」),也没有大张旗鼓地介绍「人工智能」这一术语(artificial intelligence,所有字母均为小写)。
上述文件还有另外四页,作者是 Allen Newell 和 Herb Simon,他们在文件中介绍了自己的研究贡献。文件日期为 1956 年 3 月 6 日,当时他们分别在兰德公司和卡内基技术学院(后来都成为卡内基梅隆大学举足轻重的人物)。他们表示自己在复杂信息处理领域进行了一系列的尝试,「这一活动的很大一部分属于人工智能的范畴」。「人工智能」一词似乎很容易也很快就被采用,而无需任何正式定义。
McCarthy 的导言及六位实名参与者的研究纲要不乏雄心壮志。
现有计算机的速度和存储容量可能不足以模拟人脑的许多高级功能,但主要的障碍不是机器能力不足,而是我们无法充分利用现有资源编写程序。
McCarthy 在导言中概述的一些人工智能主题包括:如何让计算机使用人类语言;如何设计「神经元网络」(神经元网络是在 1943 年发明的,距离如今的技术精英首次听说这一概念并过分激动的时间点也没差多少)以便使其形成概念;机器如何自行改进(即学习或进化);机器如何使用其传感器形成抽象,以观察世界;如何使计算机创造性地思考。Shannon、Minsky、Rochester 和 McCarthy 的个人研究提案对这些主题进行了扩展。Newell 和 Simon 的补充内容也加了进来,包含机器象棋(包括通过学习)、数学定理证明,及发展关于机器如何学习、机器如何解决人类能够解决的问题的相关理论。
他们不乏雄心壮志!要知道当时世界上只有少数几台数字计算机,而且没有一台计算机可以提供超过几十 KB 的内存来运行程序和数据,而且只有穿孔卡片或纸带用于长期存储。
当然,McCarthy 并不是第一个讨论机器和「智能」的人,其实在此之前,艾伦·图灵就已撰写并发表过相关文章,但并未将其命名为「人工智能」。他最著名的研究是《计算机器与智能》(Computing Machinery and Intelligence),出版于 1950 年 10 月。在这篇论文中,他介绍了「模仿游戏(Imitation Game)」,这种游戏后来被称为「图灵测试」(Turing Test),即让一个人判断通过即时通讯(1950 版本)与他交谈的实体是个人还是计算机。图灵估计,到 2000 年,一台拥有 128MB 内存的计算机将有 70% 的可能性骗过人类。
虽然论文的标题包含了「智能」一词,但在论文主体中这个词仅被使用了一次(而「机器」一词至少出现了 207 次),它指的是尝试构建模仿成年人的机器的人类智能。他的目的很清晰。他相信制造可以像人一样思考的机器是可能的,到 2000 年就可以实现。他甚至估计了需要多少个程序员(他的答案是 60 个,工作 50 年,所以仅仅相当于 3000 个程序员年。按今天的软件系统标准来看,这个数字太小了)。
再稍早一点,1948 年,一篇名为《Intelligent Machinery》的论文诞生,不过这篇论文直到 1970 年才发表,此时作者图灵已去世多年。图灵在论文中概述了「离散控制机」(我们今天称之为计算机)的本质,他在 1937 年的一篇论文中提出了数字计算机。然后他转向研究制造完全模仿人类的机器,他认为人类大脑的功能太强大以至于不能被限制在机器的运动感知部分中,必须实现远程操作。他指出当时的传感器和运动系统可能无法实现这一目标,因此他的结论是,探索智能的最好开端是游戏和密码学,并至少扩展到语言翻译和数学上。
这又是不乏雄心但被当时技术状况限制的案例。
AI 最初的灵感来源就是人类表现和人类智能,我认为这个目标已经吸引了大量研究者长时间致力于该领域。实际上,我们还没有任何能接近这些目标的研究成果,这不是研究社区的问题,而是目标太过艰难。
我在 1991 年写了一篇长论文《Intelligence without Reason》,介绍了人工智能的早期起源与历史。这篇博客尝试补充细节,向新一代提供对人工智能这项长期工程的理解。对于很多人来说,这项工作非常新颖、令人振奋,但对于其他人来说,只有振奋。
发展至今
在 AI 的早期阶段,将传感器连接到数字计算机及让计算机控制驱动器的方式非常有限。
在 20 世纪 60 年代早期,想要运行计算机视觉算法的人们需要取出胶片中的照片,将它们打印出来,然后贴到一个滚筒上,让滚筒对着一个光亮度传感器旋转、上下移动,以将照片转换为一个明暗度数组。在 70 年代末,利用 20 到 30 磅重的设备,花费成千上万美元,研究者才能直接从照相机的照片转换成计算机上的数字照片。直到 80 年代,这项技术才变得简单和廉价。
其它模态的传感器技术的发展也经历了相似的过程,此外还有将计算机程序是输出结果转换到现实世界物理操作的技术。
因此,正如图灵所推论的,人工智能的早期研究都转向了很少需要传感或操作的领域。当时有在游戏上的研究,利用键盘和打印机,人类动作输入和计算机输出可以轻易获取。进而可以研究数学练习例如将微积分应用到符号代数,或用逻辑证明定理,以及理解打字英语句子等。
编写可以玩游戏的程序很快衍生了「树搜索」的思想,它是上述其它领域的早期 AI 实验的关键,并且实际上,它已经成为了如今的计算机科学的基础工具。在不久之前,玩游戏还提供了探索机器学习并开发特定变体的机会,例如,强化学习正是 AlphaGo 程序取得成功的核心方法。
在很久之前,人们开发了一个积木世界项目,在其中可以探索所有类型的智能问题。1963 年 Larry Roberts 在 MIT 的发表的论文(可能是第一篇计算机视觉的 PhD 论文)展示了这样的结果,在精心设计的光照场景中,积木的所有边缘和表面都可以复原。
该论文验证了用积木来研究复杂问题的可行性,其中积木的边缘和位置的描述是程序的输入,在原则上可以求解这些问题的感知部分。之后人们将积木世界看成是感知和动作的模拟世界,并在数十年内将其作为主要的测试平台。
有些人研究二维积木世界中用虚拟机器人控制积木的问题,其中机器人可以对积木进行抓取、堆叠操作,或将其放在一维桌面上。
其它研究还包括仅从输入线(包括阴影等)恢复潜在三维积木的几何结构,为未来开发更完整的计算机视觉系统铺平了道路。
此外,仍然有其他人研究复杂的自然语言理解问题,所有这些问题都是在复杂的三维积木世界中求解的。
没有人研究这些积木世界是出于野心,而是因为使用这些工具,他们能够在对人类级别智能非常重要的问题上取得进展。同时他们认为离这个目标还很遥远。
久而久之,AI 的子领域可能会发展成为人们深入理解特定子问题的方法。不久以后,会有大量新研究出现,没人能够掌握 AI 研究的广泛覆盖范围。这些子领域包括规划、问题求解、知识表征、自然语言处理、搜索、博弈、专家系统、神经网络、机器推断、统计机器学习、机器人、移动机器人、同时定位与地图创建、计算机视觉、图像理解等。
研究社区
通常,当很多研究人员发现一组需要解决的共同问题,他们就会从主流研究中走出来,并设立他们自己的期刊和会议,而那些论文审稿人通常都是在特定问题上有非常深的见解。
20 世纪 80 年代末和 90 年代初,我参与了两个这样的团队,即 Artificial Life 和 Simulation of Adaptive Behavior,它们现在仍然存在。第一个关注混乱中秩序的基本机制,包括进化过程。而第二个研究如何通过感知、动作和计算之间的交互来模拟动物的行为。这些研究团队和他们的学术期刊目前仍然很活跃。
以下是从 1993 到 2014 年发布的部分 Artificial Life 学术期刊,它目前仍然由 MIT 出版社在线发布。
Artificial Life 上面还有其它期刊,且自 1989 年以来,该研究社区都会有国际研讨会。以下是 1992 年到 2013 年发布的 Adaptive Behavior 期刊,它目前仍然由 Sage 在线发布。
目前 SAB(Simulation of Adaptive Behavior)仍然有一系列重要会议,且论文现在都通过在线处理。
Artificial Life 会议今年 7 月份将在东京举行,而 SAB 今年八月将在法兰克福举行,每一个会议都会吸引数百名研究者。上述期刊每一个都有 20 多卷,每卷都有 4 期,因此总共有接近 100 期,且每一期大概有 4 到 10 篇论文。这些社区非常有活力,Artificial Life 社区在开发遗传算法上同样对工程有很大的影响,这些遗传算法通常都用于数值计算与应用。
但是 Artificial Life 和 Simulation of Adaptive Behavior 社区都没有实现它们最初的目标。
我们仍然不知道生命系统如何从非生命系统中演化出来,事实上我们甚至对生命本身都没有确切的定义。我们缺乏普遍可用的进化模拟方法,使我们在计算方面演化出更好的系统,尽管在最初尝试时我们做出了一些承诺。我们还不清楚如何演化出具备完整通用智能的基础因素和系统,即使是与非常简单的生物相比。
站在 SAB 的立场上,我们仍然不能从计算层面上模拟最简单生物的行为,目前该研究主要关注的生物是线虫,它具备 959 个细胞,其中 302 个是神经元。我们知道它的完整神经连接组(甚至 56 个神经胶质细胞),但是我们仍然无法模拟出它们的行为方式。
我讲述这些故事,不是因为它们独特,而是它们都说明了如何开展针对难题的研究,尤其是在学界中。此外还分离出很多很多(至少二三十)其它同等领域的 AI 子课题。它们有时繁荣,有时低谷甚至消失。所有这些子课题都有自己独特的名字,但是在规模、研究者数量和积极分享和发布独特思路方面很有意义。
但是所有 AI 领域的研究者最终都对通用人工智能感兴趣。通常他们的研究结果比较狭窄,在现实世界中的应用范围也比较狭窄,但是通用人工智能一直是他们的目标。
我将用一个大规模计算机视觉研究小组的故事结束这部分内容。这个小组在工程方面有着实实在在的影响力,它有六个重要期刊且每年举办四场或四场以上重要会议,连续举办超过 35 年。1987 年,我与金出武雄合作创立了其中一个期刊 IJCV,IJCV 现在已经发行了 126 卷(我只在前七期时担任编辑)、350 期,共有 2080 篇论文,而这还只是该领域六大重要期刊之一。该社区数十年来持续发展,在全球范围内拥有数千名研究者。