为什么这些照片连最强大的视觉AI也无法准确识别?

为什么这些照片连最强大的视觉AI也无法准确识别?

▲ 桌子上面的到底是井盖还是蜻蜓?(图片提供:Dan Hendrycks)

为什么这些照片连最强大的视觉AI也无法准确识别?

▲ 照片中的是一只绿鬣蜥,还是一只松鼠?(图片提供:Dan Hendrycks)

为什么这些照片连最强大的视觉AI也无法准确识别?

▲这是独轮车,还是一只穿越马路的鳄鱼?(图片提供:Dan Hendrycks)

对人类而言,这些答案显而易见。然而,世界上最强大的图像识别人工智能却还无法解决上述难题。

之所以会这样,是因为每一张照片都经过精心挑选,专门用来“欺骗”图像识别技术。这些照片来自一套专门的数据集,其中的7000张照片由加州大学伯克利分校、华盛顿大学以及芝加哥大学的研究人员们共同整理完成。

加州大学伯克利分校计算机科学博士生、论文作者Dan Hendrycks表示:“目前的(机器学习)模型还不够完善。虽然已经有不少研究尝试利用人工数据提升模型的能力,但我们发现,这些模型在面对某些真实数据(来自真实照片)时往往会出现严重且高度一致的错误判断。

为了解释这个问题的重要意义,我们首先对图像识别技术的发展做一下回顾。

过去几年以来,图像识别工具已经变得越来越好,识别速度也越来越快。这在很大程度上要归功于斯坦福大学创建的,并且其规模仍在持续拓展的开放数据集ImageNet。该数据集目前已经包含超过1400万张照片,每张照片都配有“树”、“天空”之类的标记。这个庞大的数据库成为人工智能重要的训练素材集合,也可以作为新AI系统的参考基准,用于训练系统进行图像识别。打个比方,它就像是一本专供幼儿学习新单词的看图学话绘本。目前,利用ImageNet训练出的人工智能拥有极高的准确率,其物体识别精度可达95%,这一水平已经优于人类的图像内容分辨效果。

然而,解决这最后5%的准确度缺口是个巨大的挑战。自2017年以来,计算机在识别图像的准确度方面一直比较羸弱。正因为如此,研究人员们才尝试探索其中的原因——即计算机为什么无法解析某些特定图像。

通过这套新的图像集合,研究人员们以手工方式搜索Flickr(雅虎旗下的图片分享网站),寻找可能会令AI软件陷入混乱的照片。然后,他们利用由ImageNet数据集训练而成的AI模型进行测试,如果模型确实无法识别照片内容,则将其添加到这套名为ImageNet-A的新数据集内(很明显,这个名称代表的就是反ImageNet之意)。在识别这7000张照片时,AI的准确度从90%迅速降低至2%。是的,您没有看错,世界上最先进的视觉AI模型确实无法正确识别其中98%的照片。

至于AI系统为什么无法理解这些图像,则是个相当复杂的问题。

目前的AI训练基本上就是把大量数据投入“黑匣子”当中——换句话说,我们只能根据最终结果来判断其准确性。比如,如果“黑匣子”见过足够多样的树木图像,它就会开始在新照片中认出树木对象,而我们就认为训练获得成功(这类重复任务被称为机器学习)。但问题是,我们并不知道AI是依靠哪些指标识别树木的——是形状?颜色?背景?质地?还是说树木具有某种人类从未意识到的统一核心几何样式?对于这个问题,目前科学家们也回答不了。

总而言之,AI能力的判断由结果实现,而非通过推理过程实现。这意味着我们可能会从AI当中发现种种令人意想不到的偏见,而这又进一步影响到AI系统在无人驾驶汽车或者刑事司法领域的实际应用。除此之外,这也意味着图像识别系统并不算是真正实现的智能化,而更像是一种强大的匹配工具。

构建ImageNet-A数据集,正是为了“欺骗”AI,从而总结为什么这些图像会让系统找不到正确答案。举例来说,当AI错把一张松鼠的图片误认为是海狮时,其缺少深层智慧与推理能力的问题就会被直接暴露出来。该系统可能仅依赖于这些动物的纹理——而非对象的相对大小或形状——进行识别。Hendrycks表示:“那些需要根据物体形状才能做出正确判断的照片,似乎最有可能骗过AI模型。”

相关推荐