别忽视深度学习的种种问题,Gary Marcus 泼冷水义不容辞
纽约大学心理学教授 Gary Marcus 曾是 Uber 人工智能实验室的负责人,他自己创立的人工智能创业公司 Geometric Intelligence 2016 年 12 月被 Uber 收购,自己也就加入 Uber 帮助他们建立人工智能实验室。Gary Marcus 也曾号召研究人员们「借用认知科学领域的知识」,更多地构建和人类类似的认识概念。
然而 Gary Marcus 却不是一个令人深受鼓舞的「正面人物」,实际上他曾反复对人工智能和深度学习泼冷水,警告大家我们现在取得的进展多么微不足道、人们又有多么过于乐观。
圣诞-元旦长假刚过,Gary Marcus 在 arXiv 上传了一篇论文,对现在火热的深度学习的现状进行了全面的、而且一点都不乐观的分析。他在论文中针对现在火热的深度学习指出了十个问题,我们把这十个问题简单介绍如下:
一,渴求大量的数据
人类学可以根据明确的规律学习,比如学会一元二次方程的三种形式以后就可以用来解各种题目;也可以从不多的几个样本中迅速学到隐含的规律,见过了京巴、柴犬之后,再见到德牧就知道它也是一种狗。然而深度学习不是这样的,「越多的数据 = 越好的模型表现」就是深度学习的基本规律,它没有能力从字面上给出的规律学习。
对企业来说,IT 巨头在深度学习时代更容易凭更大的数据量建立起马太效应,第二梯队的竞争者们已经开始感到担忧。学者们也对此不是很乐观,Geoffrey Hinton 在近期的胶囊论文中也提到「卷积网络在新类别上泛化能力的困难度……要么在网格中复制特征检测器,网格的大小随着维度数目指数增长,要么同样以指数方式增加的标注训练集的大小」。对于可用的数据有限的场合,深度学习往往并不是最佳的选择。
二,学到的知识并不深入而且很难迁移
我们都知道深度学习的「深」指的是网络的层数深、隐层数目多,而人类喜欢且崇敬的对事物运行规律的深刻总结则在深度学习中无处可寻。
即便对于需要和环境交互、理应更好地认识到环境规律的强化学习模型,一旦环境发生任何变化,它们也仍然需要重新适应——它们其实没有真的理解「墙」是什么、「通道」是什么。除了 DeepMind 的玩 Atari 游戏的强化学习模型表现出了这样的特点,其它许多研究者在各自的研究领域中也都观察到了轻微改变输入数据就会造成输出结果有巨大差别的现象。
深度学习模型学到的数据模式,看起来要比我们认为的弱得多。
三,难以处理层次化的结构
举例来说,对多数深度学习语言模型来说,句子就是一串单词而已,然而在语言学家眼中,句子是有固有的层次结构的;英文长句中的定语从句就是一类经典的例子,同样是结构基本完整的句子,从层次结构角度讲却只是某一个词或者词组的补充说明。
深度学习对于各种层次化的结构都无能为力。人类可以把「煮米饭」这个目标拆分成「淘米、加水、设火力时间」几个动作逐个完成,游戏 AI 也有需求找到单个操作和全局战略之间的平衡和协调。然而深度学习是提供不了层次化的理解、总结、控制等等能力的,它本身学到的特征就是「平坦」的,或者说是非层次化的,每个特征都只是清单中的一项。所以深度学习系统自身没有能力表示出层次化结构,尝试用一些技巧提取层次化结构的 Word2Vec 之类的模型就马上可以脱颖而出。
然而考虑到多数任务、多数数据、多数电气系统都有显而易见的层次结构(这甚至就是人类构建实用系统的基本思路),深度学习在它们之上的表现都还很值得怀疑。
四,对于开放性推理问题爱莫能助
人类在看过书籍电影之后总能对其中的转折和故事发展提出不同于原作的见解、对作者的暗示提出种种猜想,然而即便是在 SQuAD 问答数据集上表现最好的模型,也只能是在给定的文本中找到最相关的词句然后把它们进行组合而已,完全没有创新和理解暗示的能力。即便已经有研究者做出了尝试,目前来说也没有任何深度学习系统基于真实知识做开放性推理的能力可以和人类相提并论。
五,深度学习依然不够透明
关于深度学习的「黑箱」神经网络问题,在过去几年来一直是被广泛关注和讨论的焦点。而在今天,深度学习系统动辄拥有数以百万甚至十亿计的参数,开发人员难以用可解释的方式 (「last_character_typed」) 对一个复杂的神经网络进行标注 (e.g., the activity value of the ith node in layer j in network module k)。尽管通过可视化工具,我们可以看到复杂网络中的个体节点所产生的贡献,但更多时候研究者会发现,神经网络依然是一个黑匣子一般的谜。
这对于我们会产生什么样的影响犹未可知,如果系统的鲁棒性足够、自适应性也做得够好,那么可解释与否并不成为问题。但如果它需要被用在一些更大的系统上,那么它所具备的可调试性就变得尤为重要。
深度学习的透明性问题尚未被解决,而对于以金融或是医学诊断为代表的应用领域,它将是一个绕不过的坑,毕竟,人们需要向机器的决策要一个可解释的答案。就像 Catherine O』Neill (2016) 所指出的那样,深度学习的不透明性将引致偏见的系列问题。
六,深度学习远未与先验知识紧密结合
深度学习的一个重要方向在于解释学,即将它与其它的知识区隔开来。典型的深度学习方式往往是寻找一个数据集,通过调参等各种方式,学习输入输出的关联,并掌握解决问题的方法。有少数研究会刻意地弱化先验知识,比如以 LeCun 为代表的神经网络连接约束等研究。
而以 Lerer et al 的研究为例,团队尝试让系统学习物体从高塔上掉落的物理特性,在这个研究中,除了卷积隐含内容外,团队没有加入物理学的先验知识。我即将发表的论文中也提及了这一点,即深度学习研究者看起来对先验知识偏见不小,即便这些知识都是众所周知的。
此外,将先验知识整合到深度学习系统中也并非易事。主要原因在于,知识表征主要描述不是抽象的量化特征,而是特征间的关系;机器学习过于强调系统的独立性,而把通用性知识排除在外。以 Kaggle 机器学习竞赛平台为例,所给的数据集、所提出的问题,都是给定的,尽管在比赛的范式驱动下,研究者已经有了长足的进步,但与真实世界亟待解决的问题还有着很大差距。
生活并非一场 Kaggle 竞赛。真实世界的数据并不会洗干净打包好等着你,而问题也比竞赛所遇到的要复杂得多。在以语音识别为代表的,有大量标记的问题上,深度学习可能表现不俗。但如果是开放性的问题呢?几乎没有人知道要怎么办。被绳子卡住链条的自行车怎么修?我要主修数学还是神经科学?没有数据集可以告诉我如何解决。
与分类离得越远的问题、与常识靠得越近的问题,越难被机器学习所解决。而目前据我所知,也没有人尝试过解决这样的问题。
七,深度学习无法区分因果性与相关性
如果因果性与相关性确实不同,那么两者的区分会是深度学习的一个严峻问题。简单地说,深度学习习得的是输入与输出特征间的复杂关系,而非因果性的表征。深度学习系统可以把人类当作整体,并学习到身高与词汇量(height and vocabulary)的相关性,但并不能了解到长大与发展间(growth and development)的关系。也就是说,孩子随着长大会学到更多单词,但不代表学习更多单词会让孩子长大。因果关系对于 AI 而言是一个核心问题,但可能因为深度学习的目标并非解决这些问题,因此深度学习领域很少涉足这一研究。
八,深度学习对环境的稳定性提出要求,这可能会存在问题
深度学习目前在高度稳定的环境中工作得最好,比如围棋,因为它的规则不变,而一旦遇到政治和经济问题(这些问题会不断变化),效果则不尽人意。
在一定程度上来说,深度学习可以应用到诸如股票预测等任务上,但是有很大的可能最终会得到类似 Google Flu Trends 的结果,虽然一开始的疫情预测表现良好,但却没能提前预知 2013 年的流感高发季。
九,深度学习目前得出来的结果只是近似值,不能彻底相信
从前面提出的问题中可以看到,深度学习系统在某些给定领域的大部分情况下工作得很好,却很容易被愚弄。
越来越多的论文表明深度学习容易受到攻击,比如上面提到的 Robin Jia 和 Percy Liang 在语言方面的研究,以及计算机视觉领域的大规模的案例——将黄黑相间的条纹误以为校车,将带有贴纸的停车标志误以为装满食品的冰箱。最近还有一些现实世界中的例子,比如被轻微涂损过的停车标志被深度学习系统误认为是限速标志,3d 打印的乌龟被误认为是步枪。近期,还有新闻报道了英国警局系统不能正确区分裸体和沙丘。
深度学习系统易受欺骗(spoofability)的特性可能是由 Szegedy 等在 2013 年的一篇论文中首次被提出的,四年过去了,经过了如此多的研究,研究人员还是没能找到什么鲁棒性的解决方法。
十,深度学习发展到现在还是很难工程化
从上面提到的所有问题中得出的另一个事实是,用深度学习来做鲁棒性工程很难。谷歌团队发表的论文 Machine Learning: The High-Interest Credit Card of Technical Debt 中,他们的标题将机器学习形容为「技术债务里高利息的信用卡」,这表明,系统在给定了限制的环境下会工作, 但是很难保证在添加了新的数据,并且这些数据与之前的训练数据存在差异的情况下能工作。在 ICML 2015 上,Leon Bottou 将机器学习与飞机引擎的发展作了对比,他表示,飞机的设计依赖于构建复杂的系统,这可以保障可靠的性能,但机器学习系统的缺乏类似的保障。
正如谷歌的 Peter Norvig 在 2016 年所指出的那样,机器学习与传统项目相比,还缺乏增量性(incrementality)、透明性(transparency)和可调试性(debuggability),想要实现机器学习的鲁棒性,这是一项挑战。Henderson 和他的同事最近也提出了这一观点,他们专注于深度强化学习,指出了这一领域在鲁棒性和可复制性方面存在的一些严重问题。