谷歌AI良心开源：一部手机就能完成3D目标检测，还是实时的那种

angelguard

2020-03-12

关注关注

【金融特辑】光大银行科技部DBA女神带你从0到1揭秘MGR

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。

在2D图像中做3D目标检测很难？

现在，拿着一部手机就能做到，还是实时的那种。

这就是谷歌AI今天发布的MediaPipe Objectron，一个可以实时3D目标检测的pipeline。

分开来看：

MediaPipe是一个开源的跨平台框架，用于构建pipeline来处理不同模式的感知数据。

Objectron在移动设备上实时计算面向对象的3D边界框。

日常生活中的物体，它都可以检测，来看下效果。

它可以在移动端设备上，实时地确定物体的位置、方向和大小。

这个pipeline检测2D图像中的物体，然后通过机器学习模型，来估计它的姿态和大小。

那么，它具体是怎么做到的呢？

获取真实世界中的3D数据

我们知道，3D数据集相对于2D来说，非常有限。

为了解决这个问题，谷歌AI的研究人员使用移动增强现实(AR)会话数据(session data)，开发了新的数据pipeline。

目前来说，大部分智能手机现在都具备了增强现实的功能，在这个过程中捕捉额外的信息，包括相机姿态、稀疏的3D点云、估计的光照和平面。

为了标记groud truth数据，研究人员构建了一个新的注释工具，并将它和AR会话数据拿来一起使用，能让注释器快速地标记对象的3D边界框。

这个工具使用分屏视图来显示2D视频帧，例如下图所示。

左边是覆盖的3D边界框，右边显示的是3D点云、摄像机位置和检测平面的视图。

注释器在3D视图中绘制3D边界框，并通过查看2D视频帧中的投影来验证其位置。

对于静态对象，只需要在单帧中注释一个对象，并使用来自AR会话数据的ground truth摄像机位姿信息，将它的位置传播到所有帧。

这就让该过程变得非常高效。

AR合成数据生成

为了提高预测的准确性，现在比较流行的一种方法，就是通过合成的3D数据，来“填充”真实世界的数据。

但这样往往就会产生很不真实的数据，甚至还需要大量的计算工作。

谷歌AI就提出了一种新的方法——AR合成数据生成 (AR Synthetic Data Generation)。

这就允许研究人员可以利用相机的姿势、检测到的平面、估计的照明，来生成物理上可能的位置以及具有与场景匹配的照明位置。

这种方法产生了高质量的合成数据，与真实数据一起使用，能够将准确率提高约10%。

用于3D目标检测的机器学习pipeline

为了达到这个目的，研究人员建立了一个单阶段的模型，从一个RGB图像预测一个物体的姿态和物理大小。

模型主干部分有一个基于MobileNetv2的编码器-解码器架构。

还采用一种多任务学习方法，通过检测和回归来共同预测物体的形状。

对于形状任务，根据可用的ground truth注释(如分割)来预测对象的形状信号；对于检测任务，使用带注释的边界框，并将高斯分布拟合到框中，以框形质心为中心，并与框的大小成比例的标准差。

检测的目标是预测这个分布，它的峰值代表了目标的中心位置。

回归任务估计边界框8个顶点的2D投影。为了获得边界框的最终3D坐标，还利用了一个成熟的姿态估计算法(EPnP)，可以在不知道物体尺寸的前提下恢复物体的3D边界框。

有了3D边界框，就可以很容易地计算出物体的姿态和大小。

这个模型也是非常的轻量级，可以在移动设备上实时运行。

在MediaPipe中进行检测和跟踪

在移动端设备使用这个模型的时候，由于每一帧中3D边界框的模糊性，模型可能会发生“抖动”。

为了缓解这种情况，研究人员采用了最近在“2D界”发布的检测+跟踪框架。

这个框架减少了在每一帧上运行网络的需要，允许使用更大、更精确的模型，还能保持在pipeline上的实时性。

为了进一步提高移动pipeline的效率，每隔几帧只让运行一次模型推断。

最后，这么好的项目，当然已经开源了！

戳下方传送门链接，快去试试吧~

传送门

谷歌 3d 人工智能

angelguard

0 关注 0 粉丝 0 动态

关注关注

谷歌正在测试一个人工智能系统，帮助视障人士参加跑步比赛

本文转自雷锋网，如需转载请至雷锋网官网申请授权。谷歌正在测试一种人工智能系统，帮助盲人和有视力障碍的人自行参加比赛。Project Guideline是一项早期研究计划，试图给予这些人更多的独立性。据VentureBeat报道，为了使用该系统，跑步者需要将

人工智能快报 2020-11-21

全面解读谷歌云人工智能如何为机器学习提供帮助

谷歌公司拥有行业规模最大的机器学习堆栈之一，目前以其Google Cloud AI和机器学习平台为中心。谷歌公司在数年前就开源了TensorFlow，但TensorFlow仍然是一个最成熟的、并且广泛引用的深度学习框架。同样，谷歌公司几年前将Kubern

Pokemogo 2020-11-16

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

微软和谷歌一直在积极研究用于训练深度神经网络的新框架，并且在最近将各自的成果开源——微软的PipeDream和谷歌的GPipe。原则上看，他们都遵循了类似的原则来训练深度学习模型。这两个项目已在各自的研究论文中进行了详细介绍，这篇文章将对此进行总结。对于初

深圳克林斯曼 2020-11-09

谷歌概述了2021年的Android应用开发与政策变动规划

谷歌刚刚在 Android 开发者博客中披露了 2021 年的开发计划，比如 8 ~ 11 月的时候，所有新应用都必须支持 Android 11 的 API Level 30 。此外 Google Play 将要求新提交的 App 使用 Android A

xfcyhades 2020-11-20

Python之父，现在成为微软打工人

Python之父，现在成了微软的打工人。没错，全世界程序员们最喜欢的编程语言的创造者，自述耐不住退休生活的寂寞，重返岗位发光发热。又为什么选择微软？几个小时前，Guido Van Rossum本人发推宣布了这个消息，他说：「退休生活太无聊了，我决定加入微软

guangcheng 2020-11-13

研究员准备让智能设备用AI来判断你的声音来自哪里

虽然这个想法让隐私保护主义者感到害怕，但智能音箱的开发者们正在努力让他们的设备在没有听到用户唤醒词的情况下也能启动。我们知道谷歌已经在研究这项技术，但现在，卡内基梅隆大学那边的人也在跟进，研究人员已经开发出了一种机器学习模型，利用人工智能的力量精确判断某人

机器之心 2020-11-06

17款Android App被强制删除，Google Play商店发现恶意软件已感染数百万设备

本周谷歌从官方Play Store删除了17款Android应用程序。据来自Zscaler的安全研究人员Viral Gandhi称，这17个应用程序全部感染了Joker恶意软件。据调查发现，这批病毒软件从3月份开始活跃，已经成功感染了数百万台设备。今年1

Urchindong 2020-11-04

华为谈安卓：无惧谷歌技术中断，鸿蒙系统下月登陆手机

11月3日消息，之前外界一直担心，如果谷歌突然收紧安卓系统，对于华为来说，可能又是一次重要的打击，不过现在外界多虑了，而华为消费者业务软件部总裁王成录也是透露了一些内幕情况。王成录透露，从去年516之后，华为基本上跟Google中断了技术交流，但是华为今年

Michael 2020-11-03

苹果正秘密开发自家搜索功能谷歌地位会被取代吗？

章鱼之家 2020-10-29

封了TikTok，印度又要动谷歌？

6月29日以来，印度政府共封禁过近两百款中国应用，出海印度一时风声鹤唳。同时，美国巨头包括Facebook和谷歌在印度烧钱烧得手软，一起向电信运营商Jio砸下100多亿美金。10月初，印度移动支付巨头Paytm联合数十家初创企业准备起诉谷歌。虽然，目前两款

fengyeezju 2020-10-14

危险信号：谷歌AI把戴口罩的女性识别为被胶带封嘴的女人

根据FuninUSA报道，微软、谷歌和IBM的视觉系统要跟上现实世界需要做很多工作。这项研究的一些结果确实令人不安。市场营销公司Wunderman Thompson的数据集团进行了这项研究，研究了著名的视觉AI对戴PPE口罩的男性和女性的观察方式是否相同。

hanfuquan0 2020-10-12

谷歌、脸书、亚马逊……这10大科技巨头都在使用Python

十年前，由于编程语言种类匮乏，开发人员不必苦恼自己应该选择哪一种编程语言;但是现在，世界上正在使用的编程语言超过500种，随着人们的不断交流，还会有更多的语言出现。对于开发人员而言，基于项目的特点等因素确定应该使用哪一种编程语言成为了首要任务。Python

89347543 2020-10-10

美最高法院将对甲骨文诉谷歌Android代码案作出终审裁定

甲骨文与谷歌就 Android 代码问题发起的诉讼，距今已有将近 10 个年头。经历了三次审判和两次上诉，这场官司终于还是闹上了美国最高法院。期间两家科技巨头已经动用了无数的人力和诉讼费用，以及努力向非技术专业的陪审团成员解释其中的缘由。不过当地时间周三上

韩伟佳 2020-10-09

前谷歌机器人主管打造出能够灵活延伸的辅助机器人

据悉，延伸研究版目前的售价为17950美元。

幸福左手边 2020-10-09

现在知道还不算晚，输入示例自动生成代码，谷歌开源这项神器要火

操作张量并非易事，因为它需要很多先决条件，例如跟踪多个维度，Dtype兼容性，数学正确性和张量形状等。当然最大的挑战还是从数百种可用选项中确定正确的TensorFlow操作。如果会的话，谷歌的TensorFlow Coder可以帮你实现这一点。然后，它会运

lybbb 2020-09-29

谷歌为Chronicle网络安全平台引入威胁检测功能

VentureBeat 报道称，谷歌已正式将威胁检测功能引入该公司旗下的 Chronicle 网络安全平台，并承诺为企业提供与自家规模相当的威胁分析服务。作为最初诞生于 Alphabet 内部 X 部门的一个项目，其于 2018 年成为了一家独立的网络

关于学习本身 2020-09-24

谷歌推出 Go 版 Android 11，适用于入门级设备

Android 11刚刚发布，谷歌的Go 版本 Android 11也紧随其后。Android Go 版本最初于 2018 年推出，旨在为入门级设备提供智能手机体验。今年七月，曾有泄露的谷歌文档显示“谷歌提高 Android RAM 要求，低于 2GB 将

Angelia 2020-09-11

鸿蒙距离安卓还有多远？

“我们已经开始构建自己的生态，把生态干起来，鸿蒙 OS 系统已经投入上亿，体验一直在改善，现在能达到安卓 70%-80% 的水平，但是每天每周每个月都在改进。”近期，华为消费者业务 CEO 余承东谈论了鸿蒙 OS 目前的状态。就在前一天，DigTimes

刘炳昭 2020-09-10

谷歌保持技术竞争力的秘诀：以全球规模工程为先

本文内容，源自我在谷歌提供软件工程师这六年当中的亲身实践，以及对谷歌内部广泛工程运营活动的观察。希望通过这篇文章，能够对谷歌的全球规模工程实施做出一番宏观概述。从 2013 年 8 月到 2019 年 4 月的这六年时间，我有幸加入谷歌参与一系列项目。谷歌

tft0 2020-09-09

74KB图片也高清，谷歌用神经网络打造图像压缩新算法

justaipanda 2020-09-07

安科网

谷歌AI良心开源：一部手机就能完成3D目标检测，还是实时的那种

angelguard

【金融特辑】光大银行科技部DBA女神带你从0到1揭秘MGR

获取真实世界中的3D数据

AR合成数据生成

用于3D目标检测的机器学习pipeline

在MediaPipe中进行检测和跟踪

传送门

angelguard

相关推荐

谷歌正在测试一个人工智能系统，帮助视障人士参加跑步比赛

全面解读谷歌云人工智能如何为机器学习提供帮助

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

谷歌概述了2021年的Android应用开发与政策变动规划

Python之父，现在成为微软打工人

研究员准备让智能设备用AI来判断你的声音来自哪里

17款Android App被强制删除，Google Play商店发现恶意软件已感染数百万设备

华为谈安卓：无惧谷歌技术中断，鸿蒙系统下月登陆手机

苹果正秘密开发自家搜索功能谷歌地位会被取代吗？

封了TikTok，印度又要动谷歌？

危险信号：谷歌AI把戴口罩的女性识别为被胶带封嘴的女人

谷歌、脸书、亚马逊……这10大科技巨头都在使用Python

美最高法院将对甲骨文诉谷歌Android代码案作出终审裁定

前谷歌机器人主管打造出能够灵活延伸的辅助机器人

现在知道还不算晚，输入示例自动生成代码，谷歌开源这项神器要火

谷歌为Chronicle网络安全平台引入威胁检测功能

谷歌推出 Go 版 Android 11，适用于入门级设备

鸿蒙距离安卓还有多远？

谷歌保持技术竞争力的秘诀：以全球规模工程为先

74KB图片也高清，谷歌用神经网络打造图像压缩新算法

angelguard