AI还比不上人脑,其实是因为与生物神经元间有这些差异!
近年来,“深度学习”AI模型经常被吹捧为“像大脑一样工作”,因为它们由模仿生物大脑的人工神经元组成。然而,从神经科学家的角度来看,深度学习神经元和生物神经元之间的差异是众多且不同的。在这篇文章中,我们将首先描述生物神经元的一些关键特征,以及如何简化它们以获得深度学习神经元。然后我们将推测这些差异如何对深度学习网络施加限制,以及如何朝着更现实的生物神经元模型的方向发展,如我们目前所知道的那样。
生物神经元
典型的生物神经元是单个细胞,每个细胞由细胞主体和从该体延伸的许多卷须组成。身体或体细胞容纳用于维持基本细胞功能和能量加工的机器(例如,含有DNA的细胞核,以及用于构建蛋白质和加工糖和氧的细胞器)。有两种类型的卷须:一种是树突,从其他神经元接收信息并将其带到细胞体,另一种是轴突,它将信息从细胞体发送到其他神经元。
从发射神经元到接收神经元的信息传输大致由三个阶段组成。首先,传递信号的神经元产生空间和时间限制的电脉冲或脉冲,其沿着神经元的轴突(和轴突分支)从细胞体行进到轴突的末端。通过突触将传递神经元的轴突末端“连接”到接收神经元的树突。这种脉冲导致传递神经元的突触释放化学物质或神经递质,它们通过扩散在两个神经元之间传递很短的距离。
当神经递质分子与受体结合时,接受神经元上的特化受体识别(结合)特定的神经递质,并启动许多细胞事件(大多数在本文中被忽略)。其中一个事件是细胞通道的开放,它引发另一个电波,这次通过接收神经元的树突传播到它的细胞体。这可能是一个脉冲的形式,但通常这个波在空间上扩散比脉冲更多 - 基于轴突的传播 - 想想水被推入管道中的状态)。
因此,信息可以从一个神经元的传输到另一个神经元。当神经元从多个发射神经元接收到多个兴奋性脉冲时,该电能在神经元的细胞体内累积,如果在短时间内积累了足够的能量,神经元将产生其自身的外向脉冲,并将它们转发给其他神经元。
为了理解从生物神经元到深度学习神经元的建模,还有三个方面需要讨论。
- 速率编码
- 突触强度
- 兴奋和抑制性传播
速率编码
仅接收少量兴奋性脉冲的神经元将产生并发送其自身的少量脉冲(如果有的话)。如果同一神经元接收到许多兴奋性脉冲,它将(通常)发送自己的许多脉冲。虽然生物神经元中的脉冲具有明显的时间特征,但是在深度学习神经元中时间分辨率是“模糊的”。对于给定的时间单位,深度学习神经元的脉冲活动表示为多个脉冲(整数)或更典型地平均脉冲速率(浮点数)。
在这个设计的例子中,视觉系统中的三个神经元接收来自眼睛中三组颜色敏感锥体细胞之一的间接输入。因此,每个神经元对特定波长的光都具有最大响应,并且脉冲活动被报告为平均脉冲速率(归一化为[0,1])。因此,输入波长由三个神经元的共同脉冲率“编码”。
然而,请注意,在生物神经元中,信息以个体或多个神经元中的尖峰的相对时间编码,而不仅仅是在个体神经元脉冲速率中。因此,在深度学习神经元中不存在这种类型的信息编码和传输。其影响将在下面进一步讨论。
突触强度
并非所有脉冲都是平等的。当传播的脉冲到达轴突末端时,最终在接收神经元的树突中产生的电能量取决于插入的突触的强度。这种强度反映了许多潜在的生理因素,包括可用于在传递神经元中释放的神经递质的量和接受神经元上的神经递质受体的数量。
无论如何,在深度学习神经元中,突触强度由单个浮点数表示,并且通常被称为突触的权重。
兴奋性和抑制性神经递质
到目前为止,我们只考虑了兴奋性神经传递。在这种情况下,从发射神经元接收的脉冲增加了接收神经元也会出现脉冲的可能性。这是由于受体神经元上活化受体的特殊性质。虽然过于简单化,但人们可以将神经递质及其受体分为兴奋类和抑制类。当抑制性神经递质与抑制性受体结合时,接受神经元中树突的电能减少而不是增加。通常,神经元具有兴奋性和抑制性神经递质的受体,但是可以仅释放(传递)一类或另一类神经递质。在哺乳动物皮层中,与抑制神经元(每个脉冲释放神经递质GABA)相比,存在更多的兴奋性神经元(其与每个脉冲释放神经递质谷氨酸)。尽管如此,这些抑制性神经元对于增加接收神经元的信息选择性,关闭神经元,并因此有助于信息路由以及防止癫痫活动(网络中许多神经元的混乱发射)非常重要。
在深度学习网络中,兴奋性和抑制性神经元(分别仅具有兴奋性或抑制性神经递质的神经元)之间没有区别。所有神经元的输出活动都大于零,它是模型抑制的突触。允许突触的权重为负,在这种情况下,来自发射神经元的输入导致接收神经元的输出减少。
深度学习神经元
如上所述,可以组装生物神经元的简化模型以在深度学习模型中形成定型神经元。
- 深度学习神经元接收来自其他神经元的输入或激活。激活是生物神经元脉冲的速率编码表示。
- 激活乘以突触权重。这些权重是生物神经元中突触强度的模型,也是模型抑制性传递的模型,因为权重可以取负值。
- 将加权激活相加在一起,对在生物神经元的细胞体中发生的累积过程进行建模。
- 将偏差项加到总和上,模拟神经元的一般敏感性。
- 最后,求和值由激活函数限制最小或最大输出值(或两者),例如S形函数。这模拟了生物神经元的固有最小脉冲速率(零)或最大速率(由于产生脉冲的生理机制中的细节)。
推进人工智能
时间编码
深度学习依赖于基于速率的编码,其中每个神经元的激活都是单个数值,其模拟响应于给定刺激的平均尖峰速率(来自其他神经元或来自外部刺激)。网络的单个层内的一组脉冲速率值通常被组织为数字向量,并且该向量在该层被称为外部刺激的表示。
基于速率的神经编码的表达性远低于基于多个神经元上的脉冲之间的相对时间的神经代码(表示)可能的表达。作为生物学中存在这种类型代码的一个简单例子,可以考虑一下听觉系统。当声波到达我们的耳朵时,我们的大脑会对其进行处理,以确定产生声音的动物、物体或现象的类型,同时也会估计声音来自的方向(定位)。确定声音位置的一种方式是基于以下事实:来自右侧的声音将首先到达右耳,然后是左耳。靠近右耳和左耳的听觉神经元表现出反映这种声学定时差异的脉冲定时。由于这种时间编码,听觉神经元位于更靠内侧(靠近身体中线)接收来自两耳附近的神经元的输入,并且对声音的位置具有选择性。
声信息通过外耳进入大脑,并通过左右耳蜗(图像中的螺旋)转换为听觉神经中的脉冲。方位角位置的感知部分是由声音到达耳朵的时间差决定,其被编码为大脑左侧与右侧的听觉神经元中的脉冲的时间差异。身体中线附近的听觉神经元群对该时间编码敏感,并且选择性地响应入射声音的感知位置(方位角、仰角)。
考虑一个简单的例子,单个神经元接收来自另外两个神经元的输入,每个神经元都发送相同的输入:一个短序列N个均匀间隔(在时间上)的兴奋性峰值超过100毫秒。在其他条件相同的情况下,这将在接收神经元中产生一些刻板的反应。相反,如果其中一个输入神经元在前20毫秒(100毫秒间隔)内发出全部脉冲,而另一个输入神经元在最后20毫秒内发送了所有脉冲,则接收神经元的响应是可能会有显著的不同。
因此,即使输入神经元的脉冲率在每种情况下都是相同的(10N脉冲/秒),时间编码也是完全不同的,并且接收神经元的响应也可能非常不同。重要的是,即使输入脉冲的数量较少、不变或两者兼而有之,在使用时间码时也可能存在许多输入 - 输出组合。这就是我们所说的更具表现力的编码方案。在人工智能方面,一个利用时间编码的模型可以比一个神经元数量相同的深度学习模型执行更复杂的任务。
假设一个神经元接收来自一个神经元的输入。上图表示来自输入神经元的三个示例性脉冲序列(脉冲被描绘为垂直线)。在像深度学习这样的基于速率的编码模型下,接收神经元的输出在每个例子中都是相同的(因为输入在每种情况下都是相同的:3个脉冲/时间单位)。在时间编码的情况下,对于每个示例,输出可以是不同的,从而适应更具表现力的AI模型。
除了表达性之外,脉冲定时的差异可以允许模型通过对生物学的那些进行模拟来学。例如,突触的脉冲定时依赖性可塑性(STDP)。与深度学习中使用的梯度下降(反向传播)方法相比,这种学习可以在本地有效地实现。但我们将把这个话题留在将来进行讨论。
抑制神经元
基于我们对生物学和深度学习神经元的简单描述,兴奋性和抑制性神经元之间的区别可以通过深度学习神经元来模仿。即,可以简单地通过确保其深度学习等效物对其轴突与其投射的神经元的树突之间的所有突触权重具有负值来模仿生物抑制神经元。相反,当模仿生物兴奋性神经元时,这种突触应始终具有正值。然而,如果只需要所有突触都是正值(可能通过在每次训练迭代后对权重应用ReLU函数),训练和实现将更容易,并使用激活函数产生抑制的负(正)值(兴奋性)神经元。
[技术旁白:在任何一种情况下,由于权重的零值梯度等于零,可能存在额外的训练挑战。与激活函数中的ReLU非线性不同,我们不能依赖随机梯度下降(随机选择的样本批次)来将权重值推离零。
为什么人们可能想要抑制性神经元呢?为什么不像在当前的深度学习模型中那样在突触水平而不是神经元水平上实施抑制?
这是不确定的,但一种可能性是使用显性抑制神经元有助于约束整体参数空间,同时允许促进快速学习的子网络结构的演变或发展。在生物系统中,大脑不必能够学习任何输入 - 输出关系,或执行任何可能的脉冲序列。我们生活在一个具有固定物理定律的世界中,其物种的个体成员具有许多共同的物种内行为特征,无需明确学习。限制网络的可能电路连接和动态活动等同于限制训练方法必须搜索的解决方案空间。鉴于此,推进AI的一种方法是使用神经进化和人工生命方法来搜索兴奋性和抑制性神经元的规范子网络结构,在更传统的模型训练期间可以模块化地组装成更大的网络(例如,梯度下降的监督学习)。
抑制性神经元的另一个潜在好处,与刚刚提到的结构化规范电路的使用相关,是抑制性神经元可以有效地“关闭”大量神经元,这些神经元对于处理给定样本或任务是不必要的,从而节省能量需求(假设硬件设计利用这种情况)。此外,如果网络结构合理,这可以促进这种网络中的信息路由。从概念上携带来自神经元的信息,该信息将其提取到用该信息执行特定子任务的神经元。例如,将低级可视信息(像素、线或弧)路由到提取对象标识的区域,确定相对对象位置的区域,或两者。
基于低能量脉冲的硬件
更大的生物现实主义可以使人工智能受益的另一种方式不是通过扩展的基本能力本身,而是通过提高能源效率。人脑仅消耗约13瓦,相当于现代紧凑型荧光灯泡。同时提供比为移动应用设计的低能量GPU,甚至在功能强大的工作站GPU上实现的耗能型深度学习模型更多的认知能力。
即使除了这些节能之外没有对深度学习神经元做出任何其他根本性改变,利用约1000亿个神经元和具有如此低能量要求的100-1000万亿个突触(人类大脑的粗略估计)的能力可能是显著的提升AI功能。或者,当前模型可以以能源成本的一小部分运行,从而可以在边缘轻松实施,因为处理可以在本地完成,而不是无线传输原始数据到云进行处理(无线传输是一个值得注意的能量消耗)。
相对于传统计算硬件,生物神经元的能量效率很大程度上归因于这些神经元的两个特征。首先,生物神经元仅传输短脉冲的模拟能量(脉冲)而不是维持许多表示单个浮点或整数的位。在传统硬件中,除非使用更慢类型的存储器(非易失性RAM),否则这些位需要持续的能量流来维持0或1状态。
其次,记忆与生物神经元中的处理位于同一位置。也就是说,突触强度是网络的长期记忆(循环连接可以保持短期记忆,但这是其他帖子的主题),它们参与处理(脉冲加权和传输),并且非常接近处理的其他方面(细胞体内的能量积累)。相比之下,传统硬件定期将位从RAM传输到处理器,这是相当长的距离和相当大的能量消耗。
许多研究实验室和私营公司正致力于开发能够提供这些优势的新型硬件。展望各不相同,但我们可能会在十年内看到可行的、商业化的现成的基于忆阻器的硬件。值得注意的是,基于脉冲的算法迄今为止基于深度学习神经元略微不足。然而,一旦相关硬件的可用性变得明显,利用更多神经元的能力以及将进入基于脉冲的算法的研究量的增加可能会扭转这种状况。
结论
在我们看来,深度学习模型和生物大脑之间的相似性近年来被许多媒体文章夸大了。尽管如此,神经科学家和许多人工智能研究人员都清楚地意识到这些差异,并且正在努力为AI模型带来更大的神经现实性,希望超越我们可能正在向前迈进的深度学习高原。
我们遗漏了生物学和深度学习神经元之间的许多其他差异,这些差异可能解释了哺乳动物智力与当前AI之间的巨大差异。这些神经元网络的差异也很关键。
编译出品