特斯拉车祸带来的经验教训:计算机视觉还不够给力
2012 年的通用无人驾驶汽车模型的驾驶前座
Jitendra Malik 从事计算机视觉研究已经三十年了,他没有特斯拉,但有一些给特斯拉使用者的建议。
「就我所知道的有关计算机视觉的知识,我不会让自己的手离开方向盘,」他说。
Malik 博士是加州大学伯克利分校的一位教授,他指的是发生在今年 5 月份的特斯拉电动汽车致命事故,该车配备了特斯拉的 Autopilot 自动驾驶辅助系统。死者是一位俄亥俄州男子,当时他的 Model S 汽车处于自动驾驶模式,随后撞上了一辆拖车。
联邦监管机构仍在调查该事故。但看来很可能是该名男子对特斯拉的自动驾驶系统倾注了太多的信任。上周所报道的一起发生在中国的特斯拉致命事故可能是真的。其他汽车制造商,比如上周宣布了 2021 年前其无人驾驶汽车生产计划的福特公司,则采取了循序渐进的方式,它表示即使是对于偶尔解放双手的驾驶情形,技术都还没有做好面对众多交通状况的准备。
特斯拉方面已经说过,Autopilot 并不意味着完全接管人类驾驶员。而本月早些时候,该公司默认其业主们应该听从 Malik 博士的建议,它宣称公司正在修改 Autopilot,使系统能够更频繁地警告司机们把手放在方向盘上。特斯拉还微调了它的雷达传感器以更准确地检测道路危险,并减少对计算机视觉的依赖。
研究人员说,5 月份发生的特斯拉事故并不是计算机视觉的失败。尽管在数字数据、计算机算力与受人脑启发的软件的推动下,人类近年来已经取得了显著的进步,但这起事故强调了无人驾驶汽车之类科学应用的局限性。
今天,计算机视觉以一种人类无法做到的方式,能够快速而准确地认出数百万张个体面孔,识别出成千上万的汽车品牌和型号,并区分猫和狗的每一个品种。
然而最近令人印象深刻的进展主要集中在图像识别方面。研究人员一致认为下一个前沿是普遍的视觉知识——能理解物体,也能理解动作和行为的算法的开发。
计算智能似乎常常模仿人类智能,因而可以理解计算机科学使用类比的做法。在计算机视觉领域,研究人员提供了两种类比来描述有前景的未来路径:儿童和大脑。
许多研究人员说,借鉴童年的模型涉及了开发类似儿童学习方式的算法,有一些监督但主要靠自己,不依靠目前所采用的人工标记大量训练数据的方法。「这是初始阶段,」Malik 博士说,「但它是我们到达下一阶段的路径。」
大脑在计算中主要是作为一个鼓舞人心的象征,而非一张实际的路线图。人工智能专家经常说到,飞机并不拍打其翅膀。机器的运行方式有别于生物系统。
但是麻省理工学院 McGovern 大脑研究所的一位科学家 Tomaso Poggio 正在建立大脑视觉皮层的计算模型,寻求其数字仿真结构,甚至是要模拟它工作以及从经验中学习的方式。
如果成功了,其结果通常可能是计算机视觉和机器学习领域的一个突破,Poggio 博士说。
「为了实现它,」他补充道,「你需要把神经科学不仅仅视为一个灵感火花,而是一束强光。」
加州大学伯克利分校的 Jitendra Malik 和斯坦福大学的李飞飞,他们是研究应用于自动驾驶汽车的计算机视觉的研究者。
计算机视觉所取得的巨大收获应大大归功于所有网络原始资料:用于训练软件算法去识别图像的无数张在线照片。然而训练数据的收集和标注就已经是一项艰巨的任务了。
斯坦福大学和普林斯顿大学研究人员的合作结晶 ImageNet 是最雄心勃勃的项目之一。
最初近十亿张图片被下载。通过分类、标记和筛选,有 1400 多万张图片被分成了 22000 个目录。例如该数据库包括了62000 张猫的图片
对于一个计算机时代的产物,ImageNet 一直是惊人的劳动密集型项目。在这一点上,分类和标签涉及了工作在 Mechanical Turk——亚马逊全球线上市场——上的近 49000 名工作者。
类似 ImageNet 的庞大图像数据库被用于训练那些使用类似神经元节点的软件,即神经网络。计算神经网络的概念可以追溯到 30 多年前,但它在近几年才成为一个强大的工具。加州大学伯克利分校的计算机视觉专家 Trevor Darrell 说道:「可获得的数据与计算能力终于追赶上了过去的这些想法」。
如果数据是燃料,那么神经网络就构成了机器学习分支——被称作深度学习——的引擎。它不仅是一项使得计算机视觉取得迅速进步的技术,也是人工智能的其他形式,比如语言翻译和语音识别。科技公司正向人工智能研究领域投资数十亿美元用来挖掘深度学习的商业潜力。
神经网络能够将计算机视觉向前推进多远尚未可知。它们只是大致地模拟大脑——软件节点接收数字输入并将输出发送到其他节点。层层叠加的节点层构成了所谓的卷积神经网络,它有充足的训练数据,在图像识别方面已经变得越来越好了。
斯坦福大学计算机视觉实验室主任李飞飞是 ImageNet 项目的一位负责人,她的研究处于计算机视觉领域中数据驱动进展的最前沿。但目前的做法是有限的,她说。「它依赖于数据训练,」李飞飞博士说,「而这个深度学习技术缺乏我们人类所掌握的众多知识和情境。」
Facebook 最近遭遇了情境分歧。该算法撤下了一张挪威作者的作品,照片上是一个裸体的 9 岁女孩正在逃离凝固汽油弹。软件代码看到的是一个社交网络禁止儿童色情政策的违规行为,而没有看到一张反映越南战争和人类苦难的标志性照片。 Facebook 后来恢复了该照片 。
或者试想下类似晚宴的一个流动场景。一个托着大浅盘的人将提供食物。一个拿着叉子的女人会把生菜放在她的盘子里然后送进嘴巴。一只玻璃水杯颤栗在桌子边摇摇欲坠,溅了出来。预测接下来会发生的事情并了解日常生活的物理规律是人类视觉智能所固有的,但这超出了深度学习技术目前的能力。
在今年夏天的年度重大计算机视觉会议上 ,有一系列研究展现出令人鼓舞的进步,但是并没有突破。例如华盛顿大学的一位计算机科学家兼艾伦人工智能研究所研究员 Ali Farhadi 所展示的 ImSitu.org ,那是一个语境图像识别数据库,或者说是一个情境识别数据库。正如他所解释的,图像识别提供了视觉智能的名词概念,而情境识别则代表了其动词概念。搜索「婴儿做什么?」该网站检索的婴儿行为图片包括了「吮吸」、「爬行」、「哭泣」和「咯咯笑」——视觉动词。
情境识别丰富了计算机视觉,但是 ImSitu 项目仍然依赖于人工标记的数据来训练其机器学习算法。「以人类方式去理解场景和行为的视觉智能仍然离我们非常非常遥远,」Farhadi 博士说。
但对于安全的自动驾驶汽车来说,几年的持续改进——不是一个人工智能突破——可能就够了,科学家们说,不仅是计算机视觉领域会取得稳定的进展,更高清的数字地图以及雷达和激光雷达方面也会受益良多,激光雷达采用激光扫描的范围比雷达更广阔,细节也更丰富。
科学家们说,在不同道路和天气条件下行驶数百万英里的测试,应该在自动驾驶汽车被销售前完成。谷歌多年来一直在测试其车辆,而 Uber 在匹兹堡启动了一个试点项目 。
世界各地的汽车制造商都在开发自动驾驶汽车,而 2021 年似乎是开启商业化的共识元年。德国宝马汽车公司最近宣布其与英特尔和一家以色列计算机视觉公司 Mobileye 合作的汽车将于 2021 年交付。该汽车将首先实现市中心的自动驾驶,几年后覆盖其他地方。而上周福特公司宣布了一个相似进度的无人驾驶汽车计划。
「我们还没有到达目的地,但是改进的步伐正把我们引向那里,」一位曾从事自动驾驶汽车的计算机视觉科学家 Gary Bradski 说。「在我们拥有比人类驾驶更安全、拯救千万人生命的自动驾驶汽车之前,我们不需要一年又一年一直等到某种智能类似物的出现。」
本文选自:纽约时报,作者:STEVE LOHR,机器之心编译;