AI Insight：有了深度学习就可以包打天下？你想多了

大数据文摘

2017-02-11

作者：孟岩

眼下深度学习是整个 IT 领域中最热门的技术之一。虽然它只是机器学习五大学派数十种算法之一，但从媒体关注度、论文发表数量和创业投资热度来说，在人工智能、数据科技领域大有力压群雄、独领风骚之势，以至于现在有些希望进入到这个领域的初学者，非常心急的问，是不是有了深度学习，其他的方法就都成了废柴？可不可以直接无视其他方法，只学深度学习？

要回答这个问题，我们得先梳理一下深度学习的“成名之路”。其实，深度学习能有现在这样的声势，一个重要的原因是半路截胡。截了谁的胡呢？大数据分析。

AI Insight：有了深度学习就可以包打天下？你想多了

我们来梳理一下大数据分析这个技术方向的发展过程。大约十年前，在数据库领域里掠过一阵劲风，叫“商业智能（Business Intelligence，简称 BI）”。BI 以数据仓库为中心，用多维数据立方体、在线分析、数据挖掘和实时报表等技术为企业提供数据可视化服务，进行业务分析、预测和决策建议。因为 BI 确实能够带来商业收益，所以企业愿意投资买单。但是在 BI 中，能够体现“Intelligence”的数据分析（当时叫数据挖掘）其实只是配角，真正抓眼球的是实时报表，尤其是在中国。你随便抓一个当年做过企业应用系统的人问问，就知道一个漂亮的报表子系统在当时多么重要。至于数据挖掘，一则数据量不足、数据质量不高，二则领导们也不信任你推出来的那些结论，所以不太受待见。

数据分析咸鱼翻身还得归功于互联网。2009和2010年前后，移动互联网爆发，一部智能手机就相当于一个强大的数据采集器，数据量上来了，再加上 Hadoop 和 Nosql 数据库的大发展，互联网企业率先认识到数据里的价值，“数据分析”大潮涌动。因此当2012年“大数据”概念一叫起来，立刻蹿红。整个 IT 行业都认识到了，数据就是金矿。大数据、MapReduce 成了显学。但请注意，当时的大数据强调的是“大”和“快”，就是在大规模计算机集群上进行快速的数据处理和统计。我们直到今天还能看到很多非常“大数据”的分析文章，什么词汇分析，社交关系分析，内容极其详尽，可视化做得也漂亮，不过全都是关于已经发生的事情，没有预测能力。

不过到了2014年之后，企业走向“大数据分析”和“机器学习”的趋势就十分明显了。在国外，“数据科学”开始成为显学，企业看到了实实在在的收益，越来越舍得投资开发数据分析系统，各名校纷纷开设数据科学、机器学习课程甚至专业。这股数据科学热很快传到中国。

所以到了2016年的时候，一小部分公众对于大数据、数据科学、机器学习、数据挖掘这些技术已经有了一些了解和信任，并且有所期待，有些企业已经在其中获得了收益，就等着出现一个大的公关事件来引爆。但请注意，这条从十几年前一路走下来的商业大数据分析发展线路，实际上跟深度学习没什么关系。然而几乎就在一夜之间，这些了解、信任和期待就被深度学习截了胡。

深度学习又是怎么回事呢？深度学习其实就是大规模人工神经网络。最早的深度学习网络出现在1965年，五十多年几起几伏，但其影响力一直封闭在小小的学术圈子里。到了2006年的时候，也就是上面说 BI 劲风刮起前后，深度学习已经奄奄一息，全世界只有三个小的科研团队在研究深度学习。然后就出现了神剧情反转，2012年，多伦多大学 Jeff Hinton 教授的团队在 ImageNet 大赛中用深度卷积神经网络一举将图片识别错误率降低了将近10个百分点，轰动了整个机器学习圈子。随后就是大家可想而知的局面，在发现了这样一个富矿之后，一大波博士蜂拥而至，相关的论文爆发式增长。但是直到2016年之前，深度学习主要只是在计算机视觉、语音识别和自然语言处理几个科研圈子里的独门绝技，并不为外界所知。

深度学习在公众面前爆得大名，还是要归功于Alpha Go 的胜利和自动驾驶汽车的进展。Alpha Go 战胜李世石之后，相关的媒体报道重点渲染了两个技术，一个是蒙特卡洛树搜索算法，一个是深度神经网络。公众记不住也理解不了什么蒙特卡洛，但是深度神经网络好像听起来似懂非懂的挺撩人。再一看特斯拉自动驾驶也用了深度学习，于是深度学习火了，成为机器智能、大数据分析的代表热词了，相关的博士拿到了天价年薪。在公众眼里，叫了这么多年的商业智能、数据分析、大数据、机器学习，你们终于捧出来一个真正牛叉的东西，能识别猫，能听懂语音，能跟人聊天，能战胜围棋九段。不用说了，this is it，就是它了，深度学习就是机器学习的集大成者，就是代表作，就是天网，就是 Matrix。之前人们对于大数据分析的那些憧憬、热情和恐惧，现在一并由深度学习截胡代领了。

但问题就在这里。实际上深度学习代表不了机器学习和数据科学的全貌。如果你不满足于只是刷刷论文，而是真的要在行业中应用深度学习，那么会发现很多问题。

从应用领域上说，深度学习主要用于计算机视觉、语音和自然语言处理，在其他领域的应用尚未打开局面。当然这几个领域具有巨大的实用价值，比如基于这几项技术就可以开发出自动驾驶、机器人、新的人机交互接口。李开复就曾经说，光自动驾驶一项，其创造的价值就不会亚于互联网。这是事实。但是另一方面，如果你要进行医疗诊断、预测商品价格、推荐商品、分析贷款风险、规划最佳旅游方案，深度学习就没什么优势了。

为什么呢？因为深度学习，或者说神经网络有三个突出的缺点。第一是不适合于“小数据”分析，第二是需要海量的有标注数据，第三是不透明。

首先，在现实应用中，我们经常会遇到的并不是大数据分析，而是小数据分析。特别是当特征比较多的时候，即便在我们看来很大量的数据，放在一个高维空间里，都是非常稀疏的“小数据”。所以哥伦比亚大学统计学教授 Andrew Gelman 有一句名言：“样本从来都不够大”。而在数据量较小的时候，无法“喂饱”深度学习，也就很难产生好的模型，这个时候支持向量机、集成方法甚至带惩罚项的线性模型都能够轻松超过深度学习。

其次，深度学习需要海量的有标注数据，对于初创企业和小团队来说成为难以逾越的障碍。深度学习有一个优点，就是不需要人手工选择特征集，而是可以通过自己学习来选择特征集，这就是所谓的表示学习，或称特征学习。2001年吴恩达创建 Google Brain 项目之后，在没有事先标注的情况下，仅通过观看 YouTube 上的视频，就能够建立起一些高层次的概念，比如“猫”。这一实验就是体现了表示学习的能力。但这并不是说深度学习可以全自动学习，事实上恰好相反，深度学习需要海量的标注数据。目前能够公开获得的有标注开源数据集寥寥无几，不过是 ImageNet、FDDB、LFW 等。所有的科研团队、创业企业都围着这几个数据集调参数、刷论文。相反，大型互联网公司能够获得大规模的标注数据，而它们显然不愿意将这些数据开放出来，这样就使得深度学习的技术竞争变成资金和资源的竞争了。

第三个问题是深度神经网络训练完成后，内部形成的模型极其复杂，几乎无人可以理解，如果一旦出错，很难可以给出合理的解释，也很难进行有效的调整。而在很多行业当中，这是不能被接受的。比如在医疗行业中，如果出现误诊，势必要求在模型中寻找问题的根源，进行调整，防止今后再现。而深度学习就很难做到这一点。相比之下，概率图模型（贝叶斯网络、马尔科夫随机场）不但可以构造复杂的模型，而且对每一个决策都可以进行清晰的解释，显然更适合这种场景。

因为有以上这几个缺点，深度学习没有、也不可能一统江湖，“灭”掉其他机器学习门派。事实上，在 Kaggle 的竞赛当中，深度学习只是在涉及到计算机视觉、语音和一部分自然语言处理相关的任务中表现出优势，而大多数竞赛项目被 XGBoost 统治。所以，如果你以为深度学习一出，就可以包打天下了，那你就想多了，还是塌下心来扎扎实实的把机器学习基础内容好好学一遍，未来才能真正处变不惊。

本文为 AI100 原创，转载需获同意。

机器学习大数据深度学习大数据分析数据科学人工智能

安科网

AI Insight：有了深度学习就可以包打天下？你想多了

大数据文摘

大数据文摘

相关推荐

需要知识的后深度学习时代，如何高效自动构建知识图谱

数据科学面试中应了解的十种机器学习概念

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中处理缺失值的9种方法

人工智能和机器学习如何从物联网数据中提取关键见解

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

自动驾驶汽车深度学习如何应对挑战?

不要上手就学深度学习！超详细的人工智能专家路线图，GitHub数天获2.1k星

DJL 如何正确打开 [ 深度学习 ]

揭开AI、机器学习和深度学习的神秘面纱

用 Java 训练深度学习模型，原来可以这么简单！

面向深度学习的五大神经网络模型及其应用

如何通过7个步骤构建机器学习模型

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

理解AI：为什么要在人工智能系统中寻求可解释性呢？

IT自动化和人工智能将在2021年走向何方?

强化学习到底是什么，它如何运作？

大数据文摘