现场|AAAI-17 Workshop:自动驾驶与人工智能
机器之心原创
作者: 闫骥
整理:微胖、蒋思源、李亚洲、朱思颖
AAAI-17 人工智能大会正在火热进行中,机器之心在现场的分析师参加完一场 Workshop 之后发回了精彩的报道。此场 Workshop 探讨的主题是人工智能与自动驾驶。
已过去的十年见证了连接和自动化汽车(Connected and Automated Vehicles)的飞速发展。CAV 本可以避免在过去十年发展过程中的 90% 以上的交通事故;大量减缓交通拥堵;大幅降低汽车能源消耗;显著提高道路使用率。然而,现有的 CAV 系统不足以应对大规模多种数据分析的挑战,这些数据由车载传感装置——摄像机、雷达、红外线、激光雷达等所获取。并且这些 CAV 系统不能在复杂驾驶环境下做出时间要求严格(time-critical)的决策。要解决这两个难题,单独的人工智能技术,例如,感知(perception),规划(planning)以及推理(reasoning)等难以胜任,需要支持紧密合作的创新型计算方法的加入。
这个研讨会的使命是打造人工智能社区内的协同环境——囊括计算机视觉、认知、推理、学习、规划和 CAV。这个活动的三个目标:(1)确认 CAV 系统中的关键人工智能挑战;(2)发掘应对这些挑战的有前景的人工智能解决方案;(3)丰富这个多学科课题的未来研究。
以下是机器之心分析师闫骥记录的研讨会内容:
介绍
这篇文章报道了 2017 AAAI 主题为「用于连接和自动化车辆的人工智能」研讨会。我对这场研讨会的总体印象是与会者就这一论题从广泛、不同视角进行了交流。既有技术深度的分析,也有法律和社会应用这一大框架下的讨论。发言人员背景广泛:有的来自联邦高速公路管理局(FHWA),有的来自学术界,比如纽约大学从事人工智能研究,或交通管理研究的人员。还有的来自知名科技公司,比如 FAIR 和百度 IDL。另外还有自动驾驶领域创业公司的创始人,比如 AutoX 以及 ISee.ai。
深度学习和自动化驾驶
这场研讨会一开始,贾扬清博士发表了演讲,谈到了深度学习框架近期取得的一些进展。他的演说集中讨论了所谓的四个原则——MAPS。
M—模块性(Modularity):现在,在 Caffe、Theano、TF 等框架中有很多冗余 APIs。既然很多深度学习模块是可以重复使用的,那么,一个更好的重组方式就是将公共模块下推到共享核心库中。
A—增强计算模式。他指出,当前深度学习社区趋于使用更低浮点精度的数值计算(1),这有很多优点:降低模型大小、节能、更快的网络链接以及更好的性能
P—便携性。他表示,人们对在移动设备上运行强大训练过的模型的需求越来越多。他通过打开一个摄像头,用苹果手机展示了一个 demo。这个 demo 可以实时做图像分类识别。模型是在使用简化版的 Resnet 在 ImageNet 数据上训练完后在手机本地运行的
S - 可扩展性。他展示了近些年来,神经网络在深度/大小方面日益递增的情况。
Later. Two PHD students from NYU gave a talk on end to end training
接下来。两位来自纽约大学的博士研究生就端到端的训练发表了他们的看法。
近期,英伟达的工作(2)使得端到端的训练引发人们关注。基本上,论文假设已经有了一个教师策略(teach policy)。然后,使用使用监督学习来训练网络,模拟这个教师策略。这一方法的主要不足在于学习的算法只能在教师策略接触过的状态上进行训练。但是,当汽车处于教师策略从未涉及过的危险状态时,情况会很危险,因为算法还没有学会如何安全运行。
接着,他们展示了一个解决问题的办法,所涉及的论文是几年前的了(3)。直观上,训练学生策略的方式是迭代的。在首次迭代时,学生仅在教师策略见识过的状态基础上进行训练。每进行下一次迭代,学生就会基于自己习得的策略采取行动。这使得学生可以进入教师之前没有见过的状态中,对于每个未曾见过的状态,学生也会询问并存储来自教师策略的行动并用以训练。这一方法使得学生可以进入具有潜在危险的状态并学习如何恢复。这一方法的不足之处在于必须假设总有一个可以询问的教师策略,而这在自动驾驶案例中,是不切实际的。
这使得两位研究人员提出了这一方案(4),基本上避免在每个状态上询问教师策略。实现的方式是通过使用标准 CNN,所谓的安全策略,训练一个独立的分类器来判定学生策略的行动对教师策略的偏离是否达到了一个固定阈值。一旦这个分类器被训练过了,当分类器认为学生行动有危险时,学生才询问教师策略。
总体上,这似乎是个好主意,有效克服了监督学习中有偏见的状态空间。不过,这在自动驾驶中的实用性似乎还有疑问。实验仅在 TORCS 上训练过,这是个赛车游戏,还不是真实生活。真实生活中,基于一个训练过的安全策略,实现人类驾驶和自动驾驶无缝对接,这个方案的实用性能有多大呢?
随后,布加勒斯特理工大学(University Politehnica of Bucharest)的博士生发表了一场在航空测绘方面的演讲。
他发表演说解决的问题(5)就是从谷歌卫星地图获取数据,并提取道路和建筑的信息。
他谈到了传统应用 CNN 的方法,即基于卷积神经网络的小型滤波器提取局部特征。
他提出了一种能将局部图像特征和全局图像特征相结合的神经网络架构,局部特征由像 VGG 那样的网络(小型滤波器)提取,全局特征由 AlexNet 那样的网络(相对大型的滤波器)提取。并且他添加了跳过联结(skip connections)提升了表现。(代码将会很快发布)
试验结果表明两种类型网络架构的融合提高了性能。
后来 MIT 的一个学生在视频数据自动标注(6)方面做了一个演讲
他察觉到视频帧上的监督学习需要大量的标注数据,而获取这些标注数据的成本是十分高昂的。
该演讲者介绍了一种使用隐马尔可夫模型的新方法,他利用视频帧潜在状态转移的概率帮助自动标注视频帧。
该论文已经在标注驾驶员在汽车内的注意方向上完成了实验,自动标注准确率已经达到了 90% 多,并且降低了 84 倍标注劳动量。
该演讲者还介绍了两个很有意思的公开赛 DeepTraffic & DeepTesla
不仅仅是自动连接的汽车
尽管技术界将主要关注点放在构建自动驾驶系统上,政府和学界正在寻求一个基础框架使汽车像传感器一样能在路上行驶时进行无缝交流。普遍共识认为,实现道路基础架构的连接性(connectedness)将是对自动驾驶技术的一个非常重要的补充。也有交通理论背景的演讲嘉宾,这些嘉宾谈到了实现之后的主要好处。交通理论表明,交通流将完全和水流一样,前提是如果道路上驾驶的司机都以相同的方式驾驶。有一个连接的汽车基础架构将会促使交通流的平滑。连接的基础架构不仅可以支持车与车之间的交流,还能实现车与交通信号之间的交流、车与道路之间的交流等。要完成这个基础架构需要政府在不同层面上的大力参与。联邦高级机构的一位发言人谈到来自联邦政府的促进这个基础架构落地的计划
FHWA 提供资金给连接应用相关的研究,包括自适应的巡航控制、滑翔航道等汽车周边相关以及交通信号的连接(如交通灯)
连接汽车的技术规格:5.9GHz DSRC(专用短程通信技术)+ GNSS(全球导航卫星系统——暂时没有使用的频段)速度曲线限制、红灯限制
复杂的政治局面需要指引。当地政府机构负责道路,联邦机构负责汽车最低必备条件的提供。汽车和道路法规来自政府两个不同层级的彼此独立管理。当构建一个连接的道路或者说汽车基础架构,那么这个两个不同层级不能继续保持独立
联邦政府目前正考虑给制造连接汽车的制造商授权。这项法律程序一般情况下需要花费几年。最快在 2018 年出台法律文件,这也表明最早的汽车模型将会在 2020 年出来,希望到那个时候自动化已经进入第三阶段。因新政府任命,法律进程暂时停滞。没有联邦资金什么都不会发生
产业界讲座
来自联邦高速管理部门的演讲者谈到了自动驾驶汽车的现状:
出于安全与环境的考虑,才有了建立连接自动驾驶汽车的动力。2015 年大约有 35K 人死于交通事故、630 万起事故、690 万次交通延误、500 亿的公吨的二氧化碳。
其实自动驾驶是 20 多年的老概念了,但技术还未完善。SAE J3016 为自动驾驶划分了不同的等级。
大部分制造商提供 1 级的自动驾驶系统,一些提供了 2 级系统(Tesla)。
十几家制造商和科技公司目前在多个州进行测试。不只是测试乘客汽车,也有重型商业卡车。
许多制造商的目标是到 2020 年达到 3/4 等级。
韩旭(Tony Han)是百度自动驾驶部门的主管(曾是百度 DeepSpeech 的主管),他演示百度在中国的自动驾驶视频,也讲解了他们的策略。
以中国为主的商业策略:百度不打算与美国的公司竞争美国市场,但在技术上很乐意展开竞争。(Tony 提到百度的技术目前落后于 Waymo,但百度有冲劲,会尽快赶上。)
谈到了中国自动驾驶面临的独特挑战:交通拥挤、司机有的很暴躁、难以识别的道路标志。
百度的技术依赖地图,而且也正在建立自己的 HD 地图。Tony 提到建立 HD 地图的公司需要小心谨慎,防止触犯法律,因为中国这么做需要政府许可。
百度大量的使用 Lidar 这样昂贵的传感器。他打赌不久的将来,这样传感器的价格将会大幅度削减。他们大幅度投资了 Lidar 制造商 Velodyne。
百度也正在加州 Sunnyvale 做本地道路测试。在演示视频中,汽车好像经常骤停。
一些公开的数据:95% 的行人检测,99.9% 的信号检测。
结语
该研讨会针对连接自动驾驶汽车(CAV) 现在与未来的状态,给出了非常宽广与深度的描述。它也强调了我们建立 CAV 所面临的几个关键挑战:昂贵的传感器价格、缺乏 HD 地图覆盖、消费者接受度/体验、难以得出客观的安全基准从而解决不安全的问题(近期发布的 DMV「7」安全报告使用 disengagement 作为标准是模糊不清的、缺乏政府层次的基础设施支持。演讲者的不同背景也表明,解决方案不只是技术问题,也是政策问题,需要私营部门、科技/汽车/保险产业、不同政府层次(地方、州、国家层次)的公共部门之间的紧密合作。
参考文献:
1. Mixed precision programming with CUDA 8 https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/
2. End to end learning for self driving cars https://arxiv.org/abs/1604.07316
3. A reduction of imitation learning and structured prediction to no-regret online learning http://www.jmlr.org/proceedings/papers/v15/ross11a/ross11a.pdf
4. Query efficient imitation learning for End-to-End autonomous driving https://arxiv.org/pdf/1605.06450v1.pdf
5. A local - global approach to semantic segmentation in aerial images https://arxiv.org/pdf/1607.05620.pdf
6. Semi-automated annotation of discrete states in large video datasets https://arxiv.org/pdf/1612.01035.pdf
7. Autonomous vehicle disengagement report 2016 https://www.dmv.ca.gov/portal/dmv/detail/vr/autonomous/disengagement_report_2016