计算机视觉不是智能,只是记忆:CVPR 2019程序主席开炮
选自Medium
作者:Derek Hoiem
机器之心编译
参与:路、杜伟
计算机视觉顶会 CVPR 2019 刚刚落下帷幕,近日 CVPR 2019 程序主席 Derek Hoiem 发表了一篇文章,认为计算机视觉正处于黄金时代,但它依靠的只是记忆,并非真正的智能。
随着人工智能的火热,近年来 AI 学术会议正受到人们越来越多的关注。CVPR 作为首屈一指的年度计算机视觉盛会,在机器学习领域享有盛名。该会议已于当地时间 6 月 16 日-20 日在美国加州长滩举行。据统计,CVPR 2019 共收到来自全球 14,104 位作者提交的 5160 篇论文(比 CVPR 2018 增加 56%),最终接收了 1294 篇,接收率约为 25%。CVPR 2019 共有 9227 人注册参会,突破历届记录。
CVPR 2019 程序主席、伊利诺伊大学香槟分校(UIUC)计算机科学副教授教授 Derek Hoiem 认为计算机视觉正处于黄金时代,但他也认为计算机视觉目前仍依靠记忆,大量方法不具备泛化性。
让我们看看他是怎么说的:
对于计算机视觉研究者而言,这是令人振奋但也压力倍增的时代。上周二,本人有幸在 CVPR 2019 大会上向 9,277 位参与者致开幕词。作为 CVPR 2019 四位程序委员会主席之一,本人主要负责管理论文评审流程(涉及 132 位领域主席、2887 位审稿人,以及提交 5160 份论文的 14104 名作者),并组织 1296 场 poster 论文的展示和 288 场演讲。这是历史上规模最大的计算机视觉会议,但四个月后会召开另一场盛会。
研究成果日新月异——谁又能跟上研究步伐呢?
CVPR 各年度论文提交数量(蓝色)和接收数量(绿色)。
计算机视觉不再只是一种学术追求。数十亿美元正投入到智能摄像机、自动驾驶等应用中。大多数教授至少花费一半的时间投身于工业,甚至刚毕业的博士生都可以拿到六位数的薪水。但这是泡沫吗?我们又如何区分适用于商业化的成熟突破和炒起来的概念验证呢?
首先,让我们简单回顾一下计算机视觉的发展历程:
- 1963 年:Robert 的经典「积木世界」(Blocks World)论文利用精心设计的特征和规则,构建图像的 3D 目标。
- 1981 年:Lucas 和 Kanade 在仅仅 6 页纸上,提出了用于运动跟踪和立体视觉的有效算法,之后几何视觉和图像处理领域出现大量进展。
- 1996 年:Rowley、Baluja 和 Kanade 介绍了首个现代目标检测方法,这是一个训练用于检测人脸的神经网络。数字图像激增,数据取代了规则。
- 2012 年:借助于数以百万计的标注图像和 GPU 算力,Krizhevsky、Sutskever 和 Hinton 证明了深度学习的强大效能,将同类方法的误差降低了一半。数据取代了手工制作的特征。
- 2019 年:人脸识别、人体跟踪和常见物体检测实现了魔法般的效果。基于单个图像的深度预测看起来棒极了。但只有新手才会试图用不到 100,000 张标注图像来解决问题。数据标注行业诞生了。
那么,这就该提到计算机视觉领域的公开秘密了:计算机视觉只是记忆,而不是智能。
我们来看一个单视角深度预测的例子。2005 年,我提出了首个基于户外图像自动创建 3D 模型的方法。该方法的关键是通过标注像素、利用透视几何规则构建简单的场景几何模型,以学习「识别」图像的几何。该方法在 30% 的情况下是有效的。
单视角 3D 重建的一种早期方法:少量数据、手动制作的特征,以及一些数学知识。
单视角 3D 重建现在已经成为热门话题,仅 CVPR 2019 就收到了大约 35 篇相关论文。一些方法能够基于全景图像生成场景布局,基于图像生成目标网格,基于单视角生成深度图。
但是,就像我和 UCI 的研究者发表在 CVPR 2018 的论文《Pixels, voxels, and views: A study of shape representations for single view 3D object shape prediction》以及德国弗莱堡大学研究者发表在 CVPR 2019 的论文《What Do Single-view 3D Reconstruction Networks Learn?》所指出的那样,很多看似能解释图像几何的方法实际上只是在学习过程中记住了图像的几何信息,并通过检索与输入类似的样本来执行预测。预测得到的 3D 模型看似很好,但这些方法无法泛化到新的形状或场景。
那么,我们来考虑 3D 重建的两个重要问题:
- 图像深度。拍一张照片然后发到办公室,就可以做 3D 测量和 QA/QC,岂不妙哉?再也用不着昂贵的激光扫描仪和复杂的摄影测量学了。梦境很美,但是现在请睁开你的眼睛。Matterport 公司最近发布了一款基于 360 度全景图像进行深度预测的工具,这是一项卓越的数据收集和机器学习壮举。相关的深度预测效果很好,边也在正确的位置。但是它需要将一台 Ricoh Theta 全景相机放置在高度已知的三脚架上,由于相机参数和姿势都是未知的,因此这引入了一些变化因素。而且它在使用时仍然不够准确,编码器-解码器策略是一种记忆形式,因此在未来相当长的时间内,基于高度可变的构建场景执行预测很可能出现错误。现在,3D 最好还是留给无人机、视频捕捉和扫描仪吧。我对将单视角识别和分割的深度方法与可生成准确几何的多视角方法结合起来的潜力很感兴趣。
- 自动进度监控。Reconstruct 公司将点云和图像与 BIM 对齐,以更便捷地进行自动对比、规划和进度评估。这里存在的巨大挑战是构建元素和任务多种多样,观测结果不完整,需要同时评估几何和材料属性,以及如何获取标注数据。一些人声称可以做到自动进度监控,但是缺乏数据和专业知识,我认为这些言论不适用于广泛的应用。但是,语义分割领域的近期进展,以及如果有合适的数据,未来一两年自动进度监控或许可以实现,至少可以用于粗略评估正在进行的工作。
总之,如果有人称其最新解决了一个关于识别或预测的难题,请先问自己一个问题:他们有足够的数据,支持其方法记住所有答案吗?
要做到这一点,他们需要 1)具备海量数据;2)在数据标注上花费大量金钱(数百万),或者拥有自动标注方法;3)预测问题足够简单,且你的领域足够有限可以被他们的数据和标签覆盖。
几十亿美元的图像标注行业的存在是有理由的,而且截至目前,数据没有替代品。