阿里巴巴“NASA计划”新进展:刷新视觉计算世界纪录
5 月 18 日,全球权威机器视觉算法测评平台 KITTI 的世界纪录再次被刷新。来自中国的科技公司阿里云将其车辆检测的准确率拉升至 90.46%。
车辆检测被认为是实现无人驾驶的关键技术,极具挑战。据了解,此次重大技术突破是由阿里巴巴 iDST 视觉计算研究员华先胜领导的团队完成。
他们提出了基于区域融合决策和上下文相关的多任务深度神经网络,用于复杂场景下的车辆检测任务,重点解决其中多视角,多姿态以及车辆遮挡等问题。
在网络结构设计上,团队利用反卷积操作提高了小目标的召回率,同时拼接了多层特征以融合低层的局部信息和高层的语义信息,提高了边框定位的准确率。
在训练过程中,还借鉴了 GAN(生成对抗网络)中的对抗训练模式。
华先胜表示,「现在我们已经将这样的技术集成到阿里云 ET 当中,并在城市大脑中得以应用。它能够帮助城市大脑准确的看懂车流信息,快速的做出全局性判断」。
华先胜是视觉识别和搜索领域的国际级权威学者,曾获选国际电气与电子工程协会院士 (IEEE Fellow)、美国计算机协会 ACM 杰出科学家。
城市大脑是包括阿里云在内的 13 家企业联合杭州市政府发起的项目,旨在构建一个城市级的人工智能中枢,让城市能够与人类友好互动。这其中分析视频是城市大脑获取信息的关键。
以交通治理为例,通过这项技术,城市大脑通过普通摄像头就可以感知复杂路况下车辆的运行状态和轨迹,对这些数据进行实时分析。基于此,进行多种智能交通优化。在视频数据处理规模上,全球罕有。
在视觉计算领域的持续攻坚,是阿里巴巴「NASA」计划的一部分。该计划聚焦于机器学习、芯片、IoT、操作系统、生物识别等核心领域,他们希望能解决 10 年、20 年后的困难。此前,已在光量子计算机、全浸没液冷服务器等方面取得重大进展。
KITTI 是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集,可以用于评测目标检测等计算机视觉技术在复杂真实环境下的性能。KITTI 包含市区、乡村和高速公路等场景采集的真实图像数据,有大量的微小目标、欠曝和过曝、多种视角变化以及各种遮挡情况。
测评结果页面:
http://www.cvlibs.net/datasets/kitti/eval_object.php