神经网络简史
A.I.冬季
神经网络的概念一开始出现的时候并不令人意外,它是大脑中神经元如何运作的模型,被称为“连接主义”,并使用连接电路来模拟智能行为。
1943年,神经生理学家Warren McCulloch和数学家Walter Pitts用简单的电路描绘了这一模型。唐纳德·赫伯在他的著作《行为组织》(1949)中进一步提出了这个想法,提出神经通路在每次连续使用时都会加强,特别是在同时发射的神经元之间,从而开启了量化复杂过程的长途旅程。
作为神经网络前身的两个主要概念是
'阈值逻辑' - 将连续输入转换为离散输出 “Hebbian学习” - 一种基于神经可塑性的学习模型,由Donald Hebb在其著作《行为组织》中提出,通常用“一起发射的神经细胞,连接在一起”这一句话来概括
两者都是在20世纪40年代提出的。 20世纪50年代,随着研究人员开始尝试将这些网络转换为计算系统,第一个Hebbian网络于1954年在麻省理工学院成功实施。
大约在这个时候,康奈尔大学的心理学家弗兰克罗森布拉特正致力于理解苍蝇眼中存在的相对简单的决策系统,该决策系统是飞行反应的基础和决定因素。为了理解和量化这个过程,他在1958年提出了一个Perceptron的想法,称之为Mark I Perceptron。这是一个具有简单输入输出关系的系统,以McCulloch-Pitts神经元为模型,由神经科学家Warren S. McCulloch以及Walter Pitts于1943年提出了一种基于McCulloch-Pitts神经元的简单输入输出关系的系统。 McCulloch-Pitts神经元接受输入,接受加权和,如果结果低于阈值则返回'0',否则返回'1'。
Mark I Perceptron的美妙之处在于它的权重将通过连续传递的输入“学习”,同时最小化期望输出和实际输出之间的差异。
第一个已知的Mark I Perceptron实现。该机器连接到使用20×20硫化镉光电池的相机,以产生400像素的图像。主要的可见功能是一个配线板,允许使用不同的输入功能组合进行实验。右边是电位计阵列,它们实现了自适应权重。[wiki]
一个主要缺点?这种感知器只能学会分离线性可分离的类,使简单但非线性的排他电路变成一个不可逾越的障碍。
尽管使用机器学习来量化除大脑之外的决策系统时出现了混乱且有些令人不满意的问题,但今天的人工神经网络只不过是这些感知器的几个层次。
对于神经网络来说,事情在这个时期开始迅速发展,1959年在斯坦福大学,Bernard Widrow和Marcian Hoff开发出第一个成功应用于现实世界问题的神经网络。这些系统在使用多个ADAptive LINear元素后被命名为ADALINE和MADALINE,后者专门用于消除电话线路中的噪音,至今仍在使用。然而,这些人工神经元与它们作为输出返回的感知器不同,在这种情况下是加权输入。
正如历史上人工智能技术的每一次小改进一样,这些早期的成功引发了对神经网络的能力和潜力的不断夸大,同时研究人员正在反对一个接一个的障碍。在围绕这些“思考机器”的炒作高潮时,纽约时报发表了这篇关于神经网络潜力的文章。
和之前的几次“死里逃生”一样,我们仍然距离有意识的人造生命还很远,也远没有我们想象的那么恐怖。其中一个问题是运行这些网络所需的运行时间长得不切实际,因为当时是60年代,除了无法学习简单的布尔唯一性或电路外。
所有这一切都在1969年结束了,麻省理工学院AI实验室的创始人Marvin Minsky和实验室主任Seymour Papert出版了一本书《Perceptrons》。该书最终认为,罗森布拉特对神经网络的单一感知方法无法有效地转化为多层神经网络。为了评估基于最终输出在层上扩散的神经元的权重的正确相对值,将需要几次(如果不是无限次数)迭代并且将花费很长时间来计算。
Minsky 在他的文本中提出了神经网络的这些问题,并在科学界产生了更大的影响力,最重要的是资助机构得出的结论是,在这方面的进一步研究将无疾而终。显然,这篇文章的效果是强大的,在接下来的10 - 12年里,当时最大的研究机构中没有人接受任何具有该项目的项目,更不必说是较小的研究机构了。当然这些都是以失败的神经网络为前提的。也就是说,现在著名的“人工智能冬天”的时代就从这儿已经开始。
这个十年漫长的冬季于1982年在美国国家科学院开始解冻,当时Jon Hopfield在美国 - 日本合作/竞争神经网络会议上发表了关于后来被称为Hopfield Net的论文,日本宣布它打算向着第五代神经网络努力。不久,美国物理研究所于1985年建立了“神经网络计算”年会,随后于1987年由电气和电子工程师协会(IEEE)召开了第一届神经网络国际会议。
然而,这是对自60年代以来已经存在的一个概念的重新发现,它帮助神经网络走出了过早的坟墓。反向传播是自60年代以来研究人员设计,并在AI冬季不断发展的一种方法,是一种基于直觉的方法,它将每个事件的重要性降低,因为人们在事件链中走得更远。第一个看到他们潜在的神经网络和解决如何为MLP翻译的问题的人是Paul Werbos,他的一部分灵感来自于人类思维的应用,以及弗洛伊德关于信用分配后向流动的工作,他写了博士论文阐述他们的重要性。然而,在Parker发表关于他在M.I.T.的工作的报告之前,社区中的任何人都没有注意到这项工作。只有在被Rumelhart、Hinton和Williams重新发现并在一个清晰而详细的框架中重新发布后,该技术才如风暴一样接管了社区。同一作者还讨论了明斯基在其1969年出版物中后面的文章中提出的具体缺点。
反向传播与梯度下降形成了神经网络的支柱和动力。当Gradient Descent不断更新并将权重和偏差移向成本函数的最小值时,反向传播会评估成本函数的梯度w.r.t.权重和偏差,其大小和方向用于梯度下降,以评估权重和偏差参数校正的大小和方向。
一个简单的运动到一个二维函数的最小值的视觉描述。跳跃的步长由每一点的梯度值决定
因此,到了1990年代,神经网络肯定又回来了,这一次真正吸引了世界的想象力,并最终与其预期相提并论。再一次,我们对人工智能提出了同样的问题,并将我们人类的恐惧投射到了人工智能上。
编译出品