微软新研究：无人机获推理能力，看图就能做出决策

UltraLAB

2020-03-25

关注关注

雷锋网注：图自微软官网

一般来说，人类通过感知来作出相应的决策，比如因为看到障碍物而选择避让。

尽管这种“从感知到动作”的逻辑已经应用到了传感器和摄像头领域，并成为了当前一待机器人自主系统的核心。但是，目前机器的自治程度远远达不到人类根据视觉数据而作出决策的水平，尤其是在处理第一人称视角（FPV）航空导航等开放世界感知控制任务时。

不过，微软近日分享的新的机器学习系统这一领域带来了新的希望：帮助无人机通过图像推理出正确的决策。

微软从第一人称视角（FPV）无人机竞赛中获得启发，竞赛中的操作员可以通过单眼摄像头来规划和控制无人机的运行路线，从而大大降低发生危险的可能性。因此，微软认为，这一模式可以应用到新的系统当中，从而将视觉信息直接映射成实施正确决策的动作。

具体来说，这个新系统明确地将感知组件（理解“看到的”内容）与控制策略（决定“做什么”）分开，这样便于研究人员调试深层神经模型。模拟器方面，由于模型必须能够分辨出模拟和真实环境之间细微的差异性，微软使用了一种名为“AirSim”的高保真模拟器对系统进行训练，然后不经修改，直接将系统部署到真实场景里的无人机上。

微软新研究：无人机获推理能力，看图就能做出决策

雷锋网注：上图为微软在测试中使用的无人机

他们还使用了一种称为“CM-VAE”的自动编码器框架来紧密连接模拟与现实之间的差异，从而避免对合成数据进行过度拟合。通过 CM-VAE 框架，感知模块输入的图像从高维序列压缩成低维的表示形式，比如从 2000 多个变量降至 10 个变量，压缩后的像素大小为 128x72，只要能够描述其最基本的状态就行。尽管系统仅使用了 10 个变量对图像进行编码，但解码后的图像为无人机提供了“所见场景”的丰富描述，包括物体的尺寸、位置，以及不同的背景信息。而且，这种维度压缩技术是平滑且连续的。

为了更好地展示这一系统的功能，微软使用带有前置摄像头的小型敏捷四旋翼无人机进行了测试，试图让无人机根据来自 RGB 摄像机的图像来进行导航。

研究人员分别在由 8 个障碍框组成的长达 45 米的 S 型轨道上，以及长达 40 米的 O 型轨道上对装载系统的无人机进行了测试。实验证明，使用 CM-VAE 自动编码框架的表现比直接编码的表现要好很多。即便是在具有强烈视觉干扰的情况下，这个系统也顺利地完成了任务。

微软新研究：无人机获推理能力，看图就能做出决策

雷锋网注：上图为测试场地的侧视图和俯视图

微软方面声称：

无人机 text-align

安科网

微软新研究：无人机获推理能力，看图就能做出决策

UltraLAB

UltraLAB

相关推荐

人工智能空战时代走向前台，王牌飞行员会失业吗？

“三剑客”组合出道，助推矿业发展迈入智能化

数据标注在无人机领域中的具体应用丨曼孚科技

2019美赛B题

美国宣布限制AI软件出口中国：无人机、自动驾驶首当其冲

基于 HTML5 + WebGL 的无人机 3D 可视化系统

基于 HTML5 + WebGL 的无人机 3D 可视化系统

AI每日精选：AI能预测大熊猫配对成功率；美国拟授权政府追踪无人机

AI每日精选：华为鲲鹏核心网网络云满足商用；首款无人机5G产品发布

中国真正领先世界的技术，目前还无人超越，有一项大家还不知道

无人机“进军”夏威夷，只为拯救神木？

当CV碰上无人机：ICCV 2019 VisDrone挑战赛冠军解决方案解读

DJI发布Mavic Mini迷你无人机

航空摄影，新兴的一种摄影主题

2699元飞天Vlog神器！大疆御 Mini无人机发布，机身仅重249克

2019俄罗斯高科技技术论坛

无人机送货·谷歌姊妹公司“飞翼”开先河

今日芯声—太罕见了！大疆无人机居然通过美国内政部审核了？

15个月测试后，美国内政部终于承认大疆是安全的

美国又对大疆下手，拟立法禁止军方采购中国无人机

UltraLAB