对话特伦斯:你不清楚大脑是如何运作的,但你仍在用它不是吗?
大数据文摘出品
作者:陈若朦
来看一道选择题。
深陷某种疑难杂症的你面临两个诊断结果和两套治疗方法:第一个来自一台通过验证的机器,通过视觉影像输入,它能够针对你的病症进行诊断并给出相应疗法;第二个则来自一个有经验的专业医生。
你会相信谁?
“我会毫不犹豫地选择相信机器,不管这个医生有多优秀。”
作出这个回答的是特伦斯·谢诺夫斯基(Terrence Sejnowski),深度学习领域的先驱者和顶级AI科学家,NIPS基金会主席,上世纪八十年代投入人工神经网络研究的先驱者之一。尽管亲身经历了“深度学习”研究的两次寒冬期,他仍然是人工智能的忠实拥护者。
“医生并不是科学家,他们只是受训如何对症下药;同样作为学习者的AI,通过对数据的精准分析,在未来一定会比医生更为可靠。”值得一提的是,特伦斯的太太正是一位医生。
人工智能现已走进我们的生活。经过深度学习训练的计算机可谓是开了天眼,实现了自动驾驶;它也竖起了耳朵,完成了语音识别和智能翻译;这一技术正向各领域各行业展开三头六臂,渐渐重塑我们的生活方式。
尽管我们正很放心的把一部分决策权让渡给机器,但涉及到开头问题中与健康有关的问题,多数人依然会对机器存在或多或少的不信任。
AI的核心话题是深度学习,通过吞入大量的数据,它将不受任何指令限制,自主地从“已知”中学习,得出经验,甚至能够通向“未知”。
但是,这只是AI被我们所知晓的部分,机器学习目前仍然没有完整自洽的数学模型,描述深度学习的具体数理逻辑却是一个道不清的谜。
我们是否能够完全信任AI那不讲道理的“直觉”所带来的学习成果呢?
深度学习的兴起:计算机与神经科学的协同
“物理学家分析神经网络模型,心理学家模拟人类认知,神经科学家模拟神经系统并分析神经记录,统计学家探索高维空间中的大数据集,工程师则负责构建具备类人的视觉和听觉的设备。人工智能就以这样的方式飞速发展起来。”——《深度学习》
尽管今天被视为灵药,深度神经网络在诞生之初也经历了巨大的质疑。
1995年,两位机器学习大咖Jackel和Vapnik(当时他们都在贝尔实验室,Jackel是Vapnik的上司)曾经打过两个有趣的赌局:第一个赌局中,Jackel声称最迟到2000年我们就会有一个关于大的神经网络为什么有效的理论解释,当然随后的历史证明他输了;第二个赌局中,Vapnik声称最迟到2000年没有人将会继续使用1995年的这些神经网络结构(意思是大家都会转而使用支持向量机SVM,Vapnik是SVM的发明人之一),结果Vapnik也输了。事实上,不仅在2000年,直到今天,在结合了大数据与强大计算能力后,这些古老的神经网络结构迸发出更加巨大的能量。
这个深度学习史上有趣的八卦,我们如今听来却也不胜唏嘘。技术的发展往往是螺旋式且兼具跳跃性,实在难以预料。作为这一变革的亲历者,特伦斯在1987年就成立了深度学习研究团队进行相关研究,从最开始的几百人,在一个月之后就发展到了上万人,他表示现在光是团队的一个招募岗位的候选名单上就有九千人。
深度学习的兴起离不开两个学科的融合——脑科学和计算机科学。特伦斯也正是这两个学科融合的推动者之一,获得物理学博士学位后,他转向研究神经科学,再后来又转向深度学习领域。
“计算机科学和大脑研究的结合运用是必然的。需要解决的问题越难,则越需要我们结合各个领域的工具、智慧和技术去解决。”特伦斯在聊天过程中多次谈起多学科的协同作用,“我们的后代在经过现代教育后将会具备更强大的综合性的能力,未来将是各领域技术和工具的整合。”
基于数据的大脑模仿者
“在思考人工智能的未来时,我们需要保持目光长远,因为我们远没有具备达到人类智能水平所需的计算能力。现在,深度学习网络拥有数百万个单元和数十亿个权重,这比人类大脑皮层中的神经元和突触数量还要少1万倍。”——《深度学习》
“亲眼见证了人工智能几十年的发展,有什么进展是您没有预料到的惊喜吗?”
“自然语言处理。“听到这个问题,特伦斯变得很兴奋,他似乎陷入回忆,但毫不犹豫地回答了这一问题。
曾经语言学家告诉我们:尽管动物之间可以进行交流,但是只有人类才有语言。特伦斯在接受采访时大笑着说:“现在我们可以知道他们完全错了。而语言实在是太重要了,不能只留给语言学家去研究。”
在深度学习中是没有符号的,但是神经网络在语言学习过程中构建了其语义学系统。在语言的网络中,词和词之间有联系,但是对于句子并没有明确的标签,所以我们之前认为像“智能翻译”这样的功能是难以实现的。特伦斯赞叹目前在语言学习上取得的成果是“人工智能的觉醒”。
“人工智能竟然分析词与词之间的联系和区别,还能辨认出属于某种语言,这实在令人感到神奇。我们不完全清楚语言的复杂性,我们不知道需要多少大脑皮层去处理语言,我们不知道语言学习什么时候能够成功,但是它确实成功了!”
网络中单词的内部表征被用来训练预测句子中的下一个单词。每个单词都是网络活动的矢量,可以如上所示投影至二维平面上:例如不同国家和其首都之间的联系
但特伦斯也表示,也许我们没必要对AI目前的成功应用感到过分惊讶,毕竟这是我们的大脑所具有的语言能力,而人工神经网络是仿大脑构建的模型。大脑是目前被证实可以用来解决困难问题的唯一系统,人工神经网络正是基于大脑运转,通过模式识别来解决问题的技术。
“卷积神经网络是一项成功的研究,它是在猴子的视觉皮层基础上设计的。视觉是一种敏锐的感官,而我们的大脑皮层中一半部分都用于处理视觉,这一部分的组织结构为深度学习网络提供了灵感。自然生物学驱动了人工神经网络的研究。”
视觉皮层与卷积网络在图像对象识别上的比较:卷积可以被想象成一个小的滑动滤波器,在滑动整张图像的过程中创建一个特征层
如果说人工智能是大脑的模仿者,那么大脑的极限是否会限制这个“模仿者”的发展呢?
特伦斯一直强调大数据是神经网络深度学习的核心——“得数据者得天下”。他解释,更多的数据和更强大计算能力意味着我们可以构建更庞大的神经网络,其中包含的层级和单元也会按比例增加,由此达到更深度的学习。
“在我们的脑中发挥作用的是皮层,研究显示,皮层越多即意味着可以处理更多的信息。然而皮层的多少与我们的身体大小是相关的,所以人脑是有极限的。但是AI解决问题是通过对大量数据进行模式学习,愈复杂的问题对应更加庞大的数据源——我们能够获得足够的数据,我们正生活在大数据时代。”
有一种观点认为,人工神经网络只是产生了与生物神经网络类似现象的简化模型。特伦斯并不否认这一点,但他认为,简化模型自然有其弱点,但同样也是人工神经网络具备的优势。
“人脑是远远优于其他物种的存在,其用于分析处理的理论是复杂的,简化模型的优势在于简化了分析系统。我们并不是要构建一个细节完备的模型,通过人工神经网络这一模型我们得到的是关于大脑运转的基础概念。”
作为大脑的模仿者,人工神经网络在其研究过程中借鉴大脑的运转效能,同时也促进了神经科学领域的发展。“人工神经网络是一种帮助我们理解大脑是如何不断学习和进化的工具。事实上,这是一个互相促进的过程。”特伦斯解释,“通过研究机器学习,我们可以得到更具说服力的理论来解释大脑中不同的部分是如何联系,大脑是如何处理信息。通过这些我们又可以创造出更庞大的人工神经网络。”
特伦斯也提到神经网络的发展目标——神经人工智能(Neural AI)。受大脑不同区域中皮质层功能不同的启发,研究者们希望能够整合各类具有特点功能的人工神经网络,从而构建一个具有综合能力的系统,将能够应对更复杂的学习行为。
在特伦斯看来AI的能力不可限量,尽管我们仍处于这一领域的起步阶段,但它一定将是改变世界的存在。
“我想说人工智能的完全成熟是一个漫长的过程,可能要花费几十年,甚至是一个世纪,这将是一场改变一切的革命,我只能说它可能会发生,这是难以预测的。在发现了某种原理之后需要经过长时间不断地改进才能发挥作用——这是科学的本质。就像人类发现了激光,但是在此60年以后我们才发明了激光棒;怀特兄弟在1903年发明了第一架飞机,谁能想到一百年以后我们能利用这种神奇的机器高速横跨大陆呢?另外,科技的应用不仅仅要求技术上的不断完善,同时我们需要构建对应的市场体系,提供一种被大众接受的应用方式。”
“你并不清楚你的大脑是如何运作的,但你仍在用它不是吗?”
“我们已经确定了一些关键原则,但是却没有一个概念框架能优雅地解释大脑如何运转......也许我们在理解深度学习网络如何解决实际问题方面取得的进展,将引出更多线索。自然可能比我们每一个人都更聪明,但作为一个物种,我并不认为人类无法解决智能难题。”——《深度学习》
数据在通过揭示信息可以帮助我们得出事物规律、解决问题,但同时不可避免地,私密信息的泄露和公开也成为使用大数据的“副作用”。
欧盟《一般数据保护规范(GDPR)》出台后,美国加州颁布的《2018年加州消费者隐私法案(CCPA)》,被认为是美国最严格的隐私立法,旨在加强消费者隐私权和数据安全保护,将于2020年1月1日生效。多数人认为CCPA的颁布如同AI高速前进路上的交通警察,基于庞大数据源学习的人工神经网络研究势必受到隐私法的限制。
特伦斯强调大数据是AI发展的动力来源,但数据也同样是个大问题:“随着互联网的发展,信息尤为难以掌控。在我看来数据问题需要花费很长时间去解决,以达到隐私的有效保护和数据的规范使用。科技会导致疯狂的结果——回到工业革命时代,技术的革新曾带来糟糕的生活环境和工作环境:矿工在极其恶劣的条件下工作、工厂雇用童工、英国被大雾笼罩——而人类花费了上百年才意识到要规范科技的使用使其不伤害人类。我们一定要去规范,想办法实现科技真正的价值。”
同样需要花费大量时间探索的是用于解释人工智能的数学理论模型。尽管在构建人工神经网络的过程中,研究者可以清楚地获得了每一神经、每一连接中的独特的运行工作模式;然而对于作为AI启发者的大脑,我们仍不具备完整的知识——所以说,人工神经网络的数学模型依然是个谜。
但特伦斯认为,人工智能发展的当下并不急于取得更多突破,实际上我们需要完善对现在所拥有的理论认识,通过一次又一次地理解、预测、验证和改善,将简单的模型慢慢发展成得更加完整。
尽管对神经网络的数学理论研究困难重重,特伦斯仍对AI的发展信心满满——“你并不清楚你的大脑是如何运作的,但你仍在用它不是吗?”