未来20年,AI将向人类大脑学习的三个重要特征
人类大脑新皮层这三个基本属性——通过重新连接进行学习(learning by rewiring)、稀疏表示(sparse representations)和化身学习(embodiment)——将是未来20年人工智能向大脑学习的三个最重要的方向。等它学完了,就真的无敌了。
作者 | JEFF HAWKINS
翻译 | AI科技大本营(rgznai100)
参与 | Shawn,鸽子
人工智能(如深度神经网络)真是火得一塌糊涂,那只打败人类棋手的阿尔法狗好一副得意洋洋。
可是,你说你这么强大,会自己走路吗?会自己使用铅笔吗?会自己保持平衡吗?会哭会笑吗?
这些对人类来说,简单得不能再简单的任务,对人工智能来说,简直就是一座难爬的喜马拉雅雪山。
不过,路是要走的,雪山也是要翻的。
其中一个解决之道就是,理解人类智能的原理,并按照这些原理来开发新的真正的智能。
最近,位于加州红木城(Redwood City)的前沿科技公司 Numenta就宣称,其最新发现了人脑新皮层的三个特征,而这三个特征,正是现在的人工智能所缺失的。Numenta表示,未来20年,如果能将这这三个特征应用于人工智能研究,那么未来的智能机器将真正具有“人性”。
未来人工智能将要学习到的大脑新皮层的三个特征到底是什么?他们将对整个人工智能带来怎样大的变化?
为了解答这两个问题,我们需要首先从生物学入手,先解答——什么新皮层。
什么是新皮层?
人类大脑与爬行动物的大脑类似。人和爬行动物都长有能控制反射性为的脊椎;能控制呼吸和心率等自动行为的脑干;能控制情感和基本行为的中脑。但是人类,有着所有爬行动物所没有的一个构造:新皮层。
新皮层是一种深度摺叠的薄片状结构,厚度约为2毫米,如果平展开来,和一块大号餐巾纸一样大。在人类大脑中,它占据约75%的脑容量。
新皮层使我们变得如此聪明。
出生时,新皮层几乎一无所知,它通过经验来学习。我们学到的任何事物——驾驶汽车、操作咖啡机以及我们每天接触的成千上万种其他事件——都储存在新皮层中。
它学习这些对象,学习它们在这个世界的位置以及它们的行为。
除了学习,新皮层还生成运动指令。
因此当你做饭或编写软件时,实际上就是新皮层在控制这些行为。
语言也是由新皮层生成并负责理解。
和所有大脑系统和神经系统一样,新皮层由神经元细胞构成。为了理解大脑的工作原理,就必须从神经元入手。
新皮层大约有300亿个神经元。典型的神经元有一个尾巴状的轴突和几个树状延伸状的树突。如果你将神经元看作为一种信号系统,轴突就是传输者,而树突就是接收者。
树突的分支上附有5000至10000个突触,每个突触与成千上万的其他神经元上的突触相联结。因此,大脑中有超过100万亿的突触连接。
你对周围环境的感知——认出某位朋友的脸、聆听一首乐曲、手拿一块肥皂——就是眼睛、耳朵和其他感觉器官将收到的信号传递给新皮层并激活神经元群的结果。
当神经元激活时,一个电化学刺突(electrochemical spike)就会穿过神经元轴突到达突触,再由突触传递给其他神经元。
如果某个接收神经元收到足够多的电化学刺突,它可能会激活自己作为回应并激活其他神经元。
在新皮层的300亿个神经元中,1%或2%的神经元在任何给定瞬时都处于激活状态,这意味着数百万的神经元在任何时间点都能被激活。
你在移动和与周围环境接触的同时,激活神经元组合也在发生变化。你对世界的感知以及你对自身意识体验的理解都由不断变化的活性神经元模式决定的。
新皮层主要通过形成新的突触来储存这些模式。
这种储存使你能认出以前遇过的人和地方,并回想起关于它们的记忆。
例如,当你想到你朋友的脸时,新皮层中就会产生某种神经元激活形态,这种模式与你真正看到那位朋友的脸时新皮层中所产生的模式类似。
值得注意的是,新皮层既复杂又简单。说它复杂是因为它被分为几十个区域,每个区域负责不同的认知功能。每个区域内有多层神经元以及数十种神经元类型,而且神经元与神经元之间的连接方式错综复杂。
说它简单则是因为每个区域中的具体情况几乎完全相同。
经过进化,大脑形成了一种算法,这种算法可以应用于新皮层进行的所有活动。这种通用算法的存在着实令人激动,因为如果我们能搞懂这种算法,那么我们就能理解智能意义的核心,并将理解到的原理应用到未来的机器中。
但是这不就是人工智能已经在做的事吗?
大部分人工智能是不是都构建在类似于大脑神经系统的“神经网络”上?
不尽然。
虽然今天的人工智能技术的确参考了神经学,但是它们使用的是一种过于简化的模型,这种模型省略了真实神经元的关键特性,它们连接的方式并不能反映大脑负责构造的真实情况。
今天的人工智能可能善于标记图像或者识别语音,但是却无法推理、计划和创新,这些差异就是这种窘境的症结所在。
Numenta最近的研究在理解新皮层的工作原理上,新发现了三个重要特征:重新连接进行学习(learning by rewiring)、稀疏表示(sparse representations)和化身学习(embodiment),这三个属性是当前人工智能研究所缺失的,确实未来必不可少的三个方向。
现在,让我们来学习这三个重要特征到底是什么。
人工智能将向大脑学习什么?
➤通过重新连接进行学习
大脑有一些非凡的学习属性:
第一,我们能快速学习。只需扫几眼或者用手指触摸几下,我们通常就能学到新的东西。
第二,累积学习。我们在学习新的东西时,可以不用重新训练整个大脑或者遗忘以前学到的知识。
第三,不断学习。当我们移动、计划和行动时,我们从未停止思考。
快速、累积和不断学习是使智能系统适应变化环境的必要因素。神经元负责学习,而真实神经元的复杂性正是使它成为强大学习机器的原因。
近几年,神经科学家得出了几个关于树突的惊人发现。其中一个发现是树突的每条分支都作为一组模式识别器。一条附有15至20个活性突触分支就足以识别一大群神经元的活动模式。这样算来,一个神经元能识别成百上千的特殊模式。
其中某些被识别出的模式会使神经元激活,但是其他模式则改变神经元细胞的内部状态并充当对未来活动的预测。
神经科学家过去曾认为:只改变现有突触的有效性,就会引发学习,因此当递质抵达突触时,它要么很可能要么不太可能使细胞放电。
但是我们现在知道了,大多数学习是由细胞间生成新突触——通过“重新连接”大脑引发的。
单个神经元中,每天多达40%的旧突触都会被新突触替代。
新的突触产生新的神经元连接模式,从而形成新记忆。
因为树突的分支大都是独立地,当神经元学习识别某个树突上的新模式时,该模式不会与神经元在其他树突上学到的模式相冲突。
这就是解释了为什么我们在学习新的东西时旧记忆不会受到干扰,也不需要重新训练大脑。但是,今天的神经网络不具备这些属性。
智能机器虽然不需要仿造生物数据线的所有复杂属性,但是由树突实现的能力和通过重新连接进行学习这个属性至关重要。未来的人工智能系统必须用到这些能力。
➤稀疏表示:大脑和计算机表示信息的方式截然不同。
在计算机的记忆中,所有的1和0的组合都是可能有效的,因此如果你作出一丁点改变,表示出的意思通常就完全不同。同样,将单词“fire”中的“i”改为“a”,就会得到意义完全不相干的“fare”。因此,这样的表示方法是不可靠的。
而大脑使用的则是“稀疏分配表示法”(或简称为SDR)。之所以称为稀疏是因为:在任一给定时间点上,完全活跃的神经元相对较少。
在你移动和思考的同时,神经元的活跃状态也时刻在发生改变,但是活跃神经元的比例始终很小。
如果我们将单个神经元看作为一个数位,那么大脑使用成千上万的数位来表示一条消息(比计算机使用的8至64数位多得多),但是只有一小部分的数位在任何时候都是1;剩下的数位都为0。
假设你想使用SDR表示“猫”这个概念。你可能使用10000个神经元,其中只有100个是活跃的。每个活跃神经元代表猫的一方面属性,例如“宠物”或者“多毛”或者“长有爪子”。
如果几个神经元失活,或者另外几个神经元被激活,那么新的SDR将仍然能很好地表示“猫”这个概念,因为大部分活跃神经元仍是相同的。
因此,SDR很可靠。
当我们构建硅谷版本的大脑时,它们本身会容忍错误。
我想阐述SDR的两个属性。
属性1:重叠属性,这个属性使SDR容易看出两个对象在含义上有什么样的相似或不同。
假设你用一个SDR代表“猫”,用另外一个SDR代表“鸟”。这两个SDR都有表示“宠物”和“长有爪子的”相同活跃神经元,但是它们并不都有表示“多毛”的神经元。
这个例子虽然有简化,但是重叠属性很重要,因为这个属性使SDR能立刻使大脑明白这两个对象有什么相似和有什么不同。
这个属性为大脑带来了归纳能力,计算机缺少的就是这种能力。
属性2:结合属性,这个属性使大脑能同时表示多个想法。
假设我在灌木丛中看到一只动物,但是我只看了一眼,因此我不能确定我看到的是什么动物。它可能是猫,也可能是狗或者猴子。
因为SDR是稀疏的,一群神经元可以同时全部激活三个SDR,也不会混淆,因为SDR不会干扰另一SDR。
神经元不断形成SDR结合体的能力使它们非常善于处理不确定性。
SDR的这些属性对于大脑中的理解、思考和计划活动非常重要。不应用SDR,我们就无法造出智能机器。
➤可适应周围环境变化的整合感知机制
每当我们移动视线、四肢或者身体时,感官输入的信息就会发生改变。这种不断变化的输入是大脑认识周围世界的主要机制。
假设我给你看一个你以前从未看过的物体,为了便于讨论,假设这个物体是订书机,你会如何认识这个新物体?
你可能围绕订书机走动,并从不同角度观察它。
你可能将这个订书机拿起来,用手指触摸,用手翻来翻去。
你可能会推拉订书机,想弄清它是怎么工作的。
通过这个互动程序,你学习了这个订书机的形状、触感、外观和工作方式。你作出动作,观察输入如何改变,再作另一个动作,观察输入如何改变,一直重复这个程序。
通过行动来学习是大脑进行学习的主要方法。这将成为所有真正智能的系统的核心特性。
这并不是说智能机器需要一个物理身体,只是意味着智能机器可以通过移动来改变它感受到的信息。
例如,通过跟踪链接和打开文件,虚拟人工智能机器可以在网络中“移动”。
它可以通过虚拟行为来学习虚拟世界的结构,类似于我们在穿过大楼时认识大楼的结构。
这也是Numenta在去年得出了一个重要发现。
在新皮层中,感官输入的处理过程发生在区域的一个层级结构中。当感官输入从这个层级结构的一层传递到另一层时,大脑会将更加复杂的特性提取出来,直到它能够识别出某个对象。
深度学习网络使用的也是这种层级结构,但是它们识别一张图像通常需要进行100层处理,而新皮层只使用四层就能得出相同的结论。深度学习网络还需要数百万个训练模式,而新皮层只借助几个动作和感觉就能完成对新对象的学习。
大脑的某些工作方式与典型的人工神经网络完全不同,但是它是怎么工作的?
Hermann von Helmholtz是十九世纪的一位德国科学家,他最先给出了一个答案。他认识到,虽然我们的眼睛每秒运动三至四次,但是我们的视觉感知是稳定的。他推断,大脑一定在计算眼睛运动的次数;否则我们就会感到世界正在剧烈地上蹿下跳。
同样,当你触摸什么东西时,如果你的大脑只处理触觉输入,而不知道你的手指在怎样运动,我们就会感到困惑。这个运动与变化的触觉进行结合的原理被称为“感觉运动整合”(sensorimotor integration)。
感觉运动整合发生在大脑中的那个部位?是怎么发生的?这基本上还是个谜。
我们的发现是感觉运动整合发生在新皮层的每个区域内。它并不是一个分离的步骤,而是感觉处理不可或缺的一部分。感觉运动整合是新皮层“智能算法”的关键部分。
Numenta有一个用来解释神经元如何完成这个步骤的理论和模型,通过模型可以清晰地展示每个新皮层区域内的复杂活动。
这项发现对机器智能有哪些意义?
假设你可能在电脑上发现两种类型的文件。一类是图像文件,保存有照相机拍摄的图片;另一类文件保存有Autodesk之类的程序生成的计算机辅助设计文件。
图像文件代表二维视觉特征。CAD文件代表一组特征,但是每个特征都被分配在三维空间的某个位置。
CAD文件是完整物体的虚拟模型,而不是从一个角度观察到物体。借助CAD文件,你可以预测在任何方向观察某个物体会看到怎样的形状,并确定该图如何与其他三维图相互作用。观察图像文件是不能做到这些的。
而新皮层也是这么学习的。每当你的身体移动时,新皮层接收当前的运动指令,将其转化为对象参考中的某一位置,再利用感觉输入将这些位置结合起来,以学习这个世界的三维模型。
感觉运动整合是大脑功能的一个核心原则,是智能算法的一部分。智能机器未来也会按照这种方式工作。
新皮层这三个基本属性——通过重新连接进行学习(learning by rewiring)、稀疏表示(sparse representations)和化身学习(embodiment)——将是机器智能的基石。
未来的机器可能会忽视生物学的许多属性,但不能忽视这三个。
当然,也有人会对此反驳:人工智能未必要学习人的大脑。
在人工智能发展的早期阶段,评论家们批判常用“飞机不会扇动机翼”这个口头禅批判模仿人类大脑这个想法。
事实上,怀特兄弟(Wilbur和Orville Wright)曾经仔细研究过鸟类。
为了让飞机起飞,他们研究了鸟类翅膀的形状,并在风洞中测试他们的飞机。
为了获得推到力,他们选择了一个非鸟类的解决方案:螺旋桨和发动机。
为了控制飞机,他们观察到鸟类通过扭动翅膀来倾斜飞行,在转弯时使用尾巴维持高度。他们借鉴了鸟类的方法。
今天的飞机仍然在使用这种方法,但是我们只能扭动机翼的尾侧。简而言之,怀特兄弟研究了鸟类,选择了哪些鸟类飞行元素对人类飞机至关重要,哪些无关紧要。这就是我们的人工智能做法一样。
未来,我们真的真的太需要这种真正强大的智能机器了。
例如,如果我们要在别的星球上定居,我们需要机器穿越宇宙空间、在没有空气的星球上建造家园、开采资源和。
例如,未来设计出能在分子级别上感知和行动的智能机器。这些机器思考蛋白质折叠和基因表达的方式和我们思考计算机和订书机的方式相同。它们思考和行动的速度会比人类快一百万倍。
相信,在未来20年内,这三个特征将成为机器学习的新的方向。等人工智能学习完,就真的无敌了。
原文地址
http://spectrum.ieee.org/computing/software/what-intelligent-machines-need-to-learn-from-the-neocortex