AI Insight:这一届 AI 热能结出几个好果子?
作者:孟岩
【AI100 导读】经历三起三落之后,AI 又火了!这一届的 AI 前景看起来仿佛还不错,能不能结出几个好果子?到底哪几个方向是靠谱的?一起来分析一下。
1974年,AI 陷入第一次寒冬。马文·明斯基在此前五年发表的《感知机》一书几乎将神经网络和联结主义学派斩杀殆尽。英国爵士莱特希尔(Sir James Lighthill)发表的报告称 AI 研究“目标华而不实”,“只能用来过家家”,“没有哪一个成果是用别的科学手段做不到的”。DARPA 也几乎完全停止了对 AI 项目的资助,几年前还在“愈演愈烈的自吹自擂的狂欢中作茧自缚”的第一代 AI 研究者们,只好纷纷锯短他们的鼻子,转向其他领域去谋生。
这样的剧情十几年后重播过一次。1980 年代末和1990 年代初,AI 再次悲剧,整个八十年代红极一时的“专家系统”,引发无限幻想的 Lisp 计算机、日本五代机和 DARPA 的“战略计算计划(Strategic Computing Initiative)”团灭。曾经踌躇满志的第二代 AI 专家们四散奔逃。
今天 AI 又火了,第三次?还是第四次?取决于你怎么算。但如果有一个人完整经历过 1960 年代和 1980 年代的 AI 热,他或许会感到今天的一切似曾相识。学术界奋力地发表论文,AI 学术明星获得万众追捧,所有擦边专业的学生纷纷转行搞 AI,企业做出一个又一个预测和承诺,媒体连篇累牍报道 AI 的进展,而大众则睁着一双双无辜的大眼睛,好奇而惊恐地注视着他们不理解又不敢不关注的一切。是的,当你看到类似“深度学习将改变一切”的豪言壮语满天飞的时候,当面临毕业的大学生连编程和基础数学都懒得学就直接跑去搭 TensorFlow 刷参数的时候,当就业市场给这种“人才”开出令人咋舌的高薪的时候,我们心里第一个出现的应该是一个大大的问号:这一届 AI 热潮的前方的曲线是什么形状的?是一路上扬,还是陡然下坠?
越是这个时候,越要冷静。
由于在机器学习、深度学习、概率图模型等领域取得的实实在在的进展,更由于谷歌、亚马逊、Facebook 和 BAT 们在 AI 技术变现方面取得的商业成就,我们对于这一届 AI 的前景比任何时候都乐观。但回顾历史,AI 是IT 科技中最容易催生泡沫、夸夸其谈、过度承诺、欺世盗名、拉旗扯皮的领域没有之一。我们必须,基于事实而不是想象来判断这一轮 AI 可以达成的目标和最有希望的方向。
每一个时代的技术浪潮,有这个时代的条件,有这个时代的使命。第一次 AI 热潮中,卡耐基梅隆大学的“语音理解研究(Speech Understanding Research)”计划被 DARPA 评价为一场骗局,但是这个研究所开发出来的隐马尔科夫模型等科技,在数十年后成为整个语音识别技术领域的重要基石,参与其中的研究者都成为一代宗师。当时尚且如此,何况今日?
这一届 AI 热肯定能够结出几枚好果子,问题是哪些?我们不想走错路。这里有科技和产业逻辑,也有时势命运和造化。时运的部分我们无从把握,但对于科技和产业的逻辑,我们可以稍作判断。
推动本轮 AI 热潮的技术和产业因素,不外乎有四。第一是 AI 技术本身有了长足的进步,这主要是由机器学习、特别是深度学习带动的。深度学习在图像识别、语音识别和自然语言理解领域取得的重大进展是实实在在的,仅仅将这些成果商用化,已足以在多个领域掀起变革。第二是数据量的积累。机器学习需要足够多的数据才能训练出高质量的模型,只有在大数据时代才能够收集这么多的数据。第三是物联网的发展,可以使得很多对于AI 来说很困难的问题大为简化,例如用车载摄像头和AI 精确判断前车的类型和距离是比较有难度的,但是如果两部车都以物联网连接,彼此通讯,这个问题是容易解决的。第四是社会对于大数据价值和智能化应用意识的提升,特别是在中国,由于互联网、电子商务和移动互联网的爆发,在短时间内给公众带来的巨大的心理冲击,使得整个社会对于相关领域的发展具有特别强烈的风险偏好。
因此,只要某一个 AI 应用领域中“技术——产品——商业”的价值闭环能够形成,就有机会在这一轮AI 热潮中迅速崛起。这里点评一下我比较看好的几个领域。
1. 自动驾驶车辆和无人机
关于自动驾驶车辆和无人机,我们不太需要去讨论它的可能性。今天没有一家一线汽车企业的抽屉里没有自动驾驶汽车的发展规划,没有一个有见识的人还在怀疑无人驾驶的可行性。现在的问题是,无人驾驶的巨大的意义和行业价值,以及对于人类生活方式的颠覆能力,尚未被充分认识。
李开复先生曾经评价说,单单无人驾驶汽车这一件事情,就比整个互联网和移动互联网加起来还大。这一点我百分之百相信。在我们大部分人的脑子里,自动驾驶时代的社会跟今天是一样的,只是汽车驾驶位上的人可以免除驾驶之劳而已。这就把问题想得太简单了。如果说互联网在信息空间里建立了低成本直接互联的高速通道,那么自动驾驶就是在物理空间里建立了低成本直接互联的高速通道,并使之与信息空间融合为一。自动驾驶将彻底的改变我们的出行、服务、采购、娱乐、物流等各个方面的生活方式,甚至会改变人类对于物理世界的理解模型,财产观念和社会组织模式。比如说,我们未来很有可能将不再有兴趣拥有一部汽车,所有出行、服务和物流都能够以高精度时间来规划,租车公司和政府可以掌握每一个人的出行信息,复杂地形的物资运输可以简化为屏幕上的一次点击。我无法想象,这会让我们的生活发生多大变化,更无法想象有多少企业会在这个过程中生生灭灭,但我相信,如果今天有机会进入无人驾驶行业,将是参与本轮 AI 弄潮的上上签。
2. 计算机视觉、语音和自然语言处理
将这三个巨大的领域放在一起来谈,一是为了节省篇幅,二是因为三者都是在感知层面上解决“懂”的问题的基础性科技,三是因为这三个领域都是深度学习的主要舞台。当前,深度学习在图像分类任务上已经达到96%以上的准确率,在人脸识别方面达到 99.7%,而在语音识别领域,错误率低于 4%,都高于人类平均水平。我们不必去憧憬进一步的发展,只需要将现在实验室里的成果工程化、商用化,就已经可以在很多行业里带来重大变革了。
但在这个领域公众的期望过高。普通公众听说 AI 在以上三个领域取得突破之后,很自然的就会期望出现能够识别各种物体,并像人一样与我们进行自然对话沟通的 AI 出来。据我所知,实现这个级别的 AI 尚待时日。比如说,相当长时间内,可以取代客服人员的对话机器人(chatbot)还无法满足企业的基本要求。鲍捷先生对此曾判断,深度学习绝对不是这个领域的“黑科技”。
但是对于这三个领域的应用,我个人想表达一点担忧。因为我在与他人讨论计算机视觉、语音和自然语言处理的时候,很多人第一个想到的应用就是所谓安防监控和舆论分析。这在我们国家是一个特别容易想到也特别容易卖出去的应用,但我认为这类应用对于社会的长远影响很难说是利大于弊还是弊大于利。某些用户,他们今天积极地希望部署此类应用,但恐怕他们自己都不一定能够算得清楚,由此带来的对个人隐私的侵犯、对个人自由的限制,究竟对用户自身是好还是坏。我希望这三个领域的从业者主动思考这样的问题,并且积极的寻找更广阔的应用空间。
3. 智能语音助手
Amazon Echo 于 2014年9月发布,到去年底,总销量据说达到了500万台。很奇怪这个产品在中国 AI 人群中讨论的并不多,事实上它是这一波 AI 中落地程度最高的产品。
Echo 是一个智能音箱,它内置了一个名叫 Alexa 的家居语音助手。你只需要喊 Alexa 的名字,用自然语言对它下命令,就可以让它执行某项“技能(skill)”,如你关窗帘,开电视,买牛奶,调气温,等等。目前 Alexa 有500多项技能,很快将发展到3000多项,基本上可以满足日常家居生活的一切需求。我们也可以非常容易的设想,此类应用解决一些基本问题之后,可以应用于办公和公共场所。
几乎可以肯定,这类产品一旦成熟,必会收到疯狂追捧。然而此类系统天生具有排他性,对隐私又特别敏感,想必有关政府部门会介入监管,切入速度会比较慢。但我非常看好这个领域,它不仅是一个家电设备这么简单,而且是整个智能家居、智能建筑和智能场所的操作系统。一旦一个智能助手占据市场支配地位,所有的家电、设备甚至建安设施都需要与之兼容,这块利益太大了。
(未完待续)
本文为 AI100 原创,转载需获同意。