我们与“真正的”AI:要么触手可及,要么相隔世纪

全文共3895字,预计学习时长8分钟

我们与“真正的”AI:要么触手可及,要么相隔世纪

有计算机科学家认为,人工智能的真实研究进展比当下炒作的程度的要慢得多。

因对人工智能的真实研究进展存在困惑,梅兰妮·米切尔(Melanie Mitchell)创作了她的新书《人工智能:人类思维指南》(Artificial Intelligence: A Guide for Thinking Humans),在书中她写道,她想“了解事情的真实状态”。

得知她存在矛盾情绪可以让普通人松一口气,因为她本人就从事人工智能研究,作为波特兰州立大学的计算机科学教授,也是著名的多学科研究中心——圣达菲研究所科学委员会的联合主席。如果米切尔都对人工智能的立场感到困惑,那我们其他人对于人工智能的困惑甚至完全错误的理解就可以被原谅了。

正如米切尔所指出的,人工智能在很多领域都得到了成功应用。从这些角度来看,最近在机器视觉、语音识别、游戏和机器学习的其他方面的突破都预示着,在未来几十年内,人工智能可以比人类更好的完成很多种任务。有些人觉得这种前景非常美好;电脑可能会决定淘汰人类并将此付诸行动。

但也正如米切尔所论证的,即使是当今最先进的人工智能也存在关键的局限性。它们只擅长定义在局部范围内的任务,对外部世界一无所知。它们能发现数据的相关性,而不考虑其含义,因此其预测可能可靠性较低甚至会引发事故。它们没有任何常识。

米切尔写道:“我们要么取得了巨大的进展,要么几乎没有任何进展。我们与‘真正的’人工智能,要么触手可及,要么相隔世纪。”

这本书的启发性和其令人难忘之处正是在于米切尔说出了问题的解决之道。她对当今人工智能技术的耐心解释让我们觉得,真正的人工智能还很遥远。计算机不仅需要更好的大脑,可能也需要更好的身体。

我们与“真正的”AI:要么触手可及,要么相隔世纪

图像识别、翻译和自动驾驶领域最新进展均以神经网络技术为核心,为此技术,米切尔撰写了一本思路清晰、通俗易懂的入门级读物。神经网络技术于20世纪50-60年代首次被应用到人工智能的构建中。然而由于当时技术条件的限制,神经网络的应用价值有限,应用前景灰暗,使其失去了学术界的关注。但在大约十年前,这种情况发生了改变,随着计算能力的进步,可通过被称为“深度学习”(deep learning)的数据密集型方法训练神经网络。

按照米切尔对神经网络的描述,你不需要了解复杂的数学——但她表明,数学大体上反映了神经网络的本质,阐释了其优势和缺陷。基于卷积计算的神经网络算法非常适用于图像内容识别。分析文本时常用的统计量是某单词在句子中出现的频率,卷积算法依赖计算能力将该统计量转化为复杂多维向量再处理。

令人印象深刻的是,为了减少对计算机的干扰,人们量化了许多层面的问题。同时,这些方法在诸如肿瘤检测,自动驾驶和过滤垃圾邮件等方面的应用效果显著。但是对强大计算能力的智能新应用并不一定能赋予人工智能与我们相当的智力。正如米切尔指出的,让卷积神经网络正常工作“需要很多人类的创造力”。机器学习系统本质上是在进行统计工作,认识到这一点,就不难理解为什么它们在处理数据时如此容易出现不准确、漏洞和其他缺陷。如果主要通过白人的图像训练神经网络系统,它就无法识别黑人的脸。一辆自动驾驶汽车无法识别粘有贴纸的停车标志,但人类依然能轻松识别,这也不足为奇。

幸运的是,这类问题引发了许多关于面部识别和自动决策技术所带来的社会影响的讨论,这些讨论取得了丰硕的成果。纽约大学数据新闻学副教授梅雷迪思·布鲁萨德(Meredith Broussard)在2018年出版的《人工非智能:计算机如何误解世界》(Artificial Unintelligence: How Computers Misunderstand the World)一书中指出,无论你是否称之为“人工智能”,“计算机仍应被作为好奇的人类的工具,且永远保持这个定位。”

米切尔并不是第一个指出机器学习系统弱点的人,同时她在批判性的论述中增加了一层含义,即计算机的最优性能也可能不如想象的强大。近年研究人员开发出了一套神经网络系统,并声称其在识别照片或视频中的物体时,已达到甚至超过了人类的表现。这个系统一经报道,就被作为人类无法回避承认人工智能优越性的案例。

米切尔指出,书中各类讨论都基于对ImageNet图片大数据库的一项测试。2017年,最佳计算机系统对ImageNet中的图片进行分类,计算机系统“前5位”识别准确率高达98%,据称超过了人类95%的识别准确率。

如何界定“前五位”?即在进行物体分类时,计算机给出的前五个猜测中包含至少一个正确。正如米切尔所写:“如果给定一个篮球的图像,机器依次输出‘槌球’、‘比基尼’、‘沃茨猪’、‘篮球’和‘移动货车’,则被认为是正确的。”可以理解为什么存在“前5位”度量:如果一个图片显示了不止一个对象,那么人们需要知道机器是否会对其中的任何一个对象进行检测。但这削弱了对极端技能的要求。米切尔表示,当机器将正确的分类放在首位时,最佳的top-1精度在2017年仅为82%。

至于说人类有95%的正确率,米切尔认为支持这一说法的数据是站不住脚的。在2015年发表的一个研究项目中,两个人尝试了ImageNet挑战的一部分。现任特斯拉公司(Tesla)人工智能主管安德烈·卡普希(Andrej Karpathy)投入更多时间挑战该任务,他将一组500张带有标签的图片作为他的“训练数据”,然后将1500个没有标签的图像分类。以前五名的准确度作为衡量标准,他错了百分之五。现在,这个数字这个数字代表了人类的识别准确率。

如果不是这个特殊的测试,他的错误率可能会更低。卡普希写道,他和另一名受试者所犯的错误中,约有四分之一不是因为他们对所看到的图片一无所知,而是因为他们不知道或不记得ImageNet中使用的某些确切标签。

凭借计算速度快和可不断重复运算的特点,在很多应用场景下都优先选择计算机进行图像识别。在某些情况下,它们肯定比人类更精确。但要说得更多就太过分了。米切尔写道:“物体识别还没有被人工智能‘解决’。

现在人工智能领域最热门的话题之一是如何让机器不仅检测数据中的统计相关性,而且在某种程度上理解它们正在处理的内容的含义。和米切尔一样,纽约大学的研究人员加里·马库斯和欧内斯特·戴维斯说,如果没有这样的改进,人工智能将不会是“安全、智能或可靠的”。在他们的新书《重新启动人工智能:建立我们可以信任的人工智能》(Rebooting A.I.: Building Artificial Intelligence We Can Trust)中,马库斯(Marcus)和戴维斯(Davis)说,由于人们“容易上当受骗”,人们误以为计算机比实际更加敏锐。

他们写道:“无论计算机实际遵循的规则多么简单,我们都不禁从认知的角度来思考机器(比如:‘它认为我删除了我的文件’)。”

我们与“真正的”AI:要么触手可及,要么相隔世纪

为了增强机器的思考能力,许多研究人员正在重新研究原先用逻辑和常识对计算机进行编码的方法。以米切尔为例,她用类比的方式描述了如何让计算机进行推理。如果你想让电脑识别描绘“遛狗”的图像,当前最基本的方法是给它展示数千幅遛狗的图像,然后通过这些图像中共同的物体——狗、牵引绳、手等等令计算机产生信任,下一次再识别到同样的物体时触发正信号,即识别到的是遛狗的图片。然而,计算机也可能发现不同的遛狗情境。米切尔举了一些例子,比如一张有人骑自行车遛狗的照片,或是一只狗嘴里叼着另一只狗的牵引绳的照片。她的研究小组正试图让计算机理解后一种情况是典型情况的“延伸”版本。

那样的工作既辛苦又缓慢。即使它成功了——如果一台计算机能够在某种程度上理解“遛狗”可以有多种形式——如果机器从来没有亲自遇到过狗,这种理解会有多丰富?

当我6岁左右的时候,在我家附近的人行道上骑着自行车,停下来看了看(可能会掉下来的)一堆甜树胶树上的种子球。突然,有人打开街对面一所房子旁边的一扇门,从里面出来一条棕色的狗,它犹豫了一两秒钟,然后直接跳过来,咬住我,撕破了我灯芯绒裤子的屁股处。这种记忆使我对人生经历的各个方面产生了深刻体会——惊讶、恐惧和痛苦的情绪,狗出现的不可预测性,甜胶籽球带有异国情调的怪异相比之下,计算机需要被告知“自食恶果”并不始终是一个习语,就显得太浅薄了。

哲学家和其他人工智能怀疑论者一直认为,一个盒子里没有实体的电子大脑只能学到这么多东西。许多人工智能研究人员把这种怀疑归咎于“某种残余的神秘主义”——正如认知科学家安迪·克拉克(Andy Clark)在1997年出版的《在那里:把大脑、身体和世界重新组合起来》(Being There: Putting Brain, Body, and World Together Again)一书中写的,一种“对灵魂般的精神本质的不科学信仰”。但是,当你考虑到只会爬行的婴儿能很快掌握基本概念,而数据中心的计算机需要大量的电力来理解一个东西时,智能需要实体的想法听起来相当不错。

米切尔似乎不情愿地主张起了怀疑论。她写道:“在与人工智能抗争多年后,我发现实体化理论越来越有说服力。”

那么,要怎样才能生产出一种能在世界范围内移动,且对自身行为、与之交互的人、动物和其他机器的行为具有一定见解的机器人?她写道:“我几乎无法想象,制造这种机器需要取得什么突破。”

我们与“真正的”AI:要么触手可及,要么相隔世纪

留言 点赞 关注

我们一起分享AI学习与发展的干货

如需转载,请后台留言,遵守转载规范

相关推荐