谷歌发布MobileNetV2：可做语义分割下一代移动端计算机视觉架构

sunlinyi

2018-04-04

深度学习在手机等移动端设备上的应用是机器学习未来的重要发展方向。2017 年 4 月，谷歌发布了 MobileNet——一个面向有限计算资源环境的轻量级神经网络。近日，谷歌将这一技术的第二代产品开源，开发者称，新一代 MobileNet 的模型更小，速度更快，同时还可以实现更高的准确度。

项目链接：https://github.com/tensorflow/models/tree/master/research/slim/nets/mobilenet

谷歌 2017 年推出了 MobileNetV1，它是一种为移动设备设计的通用计算机视觉神经网络，因此它也能支持图像分类和检测等。一般在个人移动设备上运行深度网络能提升用户体验、提高访问的灵活性，以及在安全、隐私和能耗上获得额外的优势。此外，随着新应用的出现，用户可以与真实世界进行实时交互，因此我们对更高效的神经网络有着很大的需求。

今天，谷歌很高兴地宣布下一代移动视觉应用 MobileNetV2 已经发布。MobileNetV2 在 MobileNetV1 的基础上获得了显著的提升，并推动了移动视觉识别技术的有效发展，包括分类、目标检测和语义分割。MobileNetV2 作为 TensorFlow-Slim 图像分类库的一部分而推出，读者也可以在 Colaboratory 中立即探索 MobileNetV2。此外，我们也可以下载代码到本地，并在 Jupyter Notebook 中探索。MobileNetV2 在 TF-Hub 中会作为模块使用，且预训练保存点可在以下地址中找到。

Colaboratory 试验地址：https://colab.research.google.com/github/tensorflow/models/blob/master/research/slim/nets/mobilenet/mobilenet_example.ipynb
MobileNetV2 本地实验地址：https://github.com/tensorflow/models/blob/master/research/slim/nets/mobilenet/mobilenet_example.ipynb
预训练模型下载：https://github.com/tensorflow/models/tree/master/research/slim/nets/mobilenet

MobileNetV2 基于 MobileNetV1[1] 的基本概念构建，并使用在深度上可分离的卷积作为高效的构建块。此外，MobileNetV2 引入了两种新的架构特性：1）层之间的线性瓶颈层；2）瓶颈层之间的连接捷径。MobileNetV2 的基本架构展示如下：

谷歌发布MobileNetV2：可做语义分割下一代移动端计算机视觉架构

MobileNetV2 的架构概览，蓝色块如上所示为复合卷积构建块。

我们可以直观理解为，瓶颈层对模型的中间输入与输出进行编码，而内层封装了模型从像素等低级概念到图像类别等高级概念的转换能力。最后，与传统的残差连接一样，捷径能快速训练并获得更优精确度。读者可查阅文末的 MobileNetV2 论文了解更多的详情。

V2 与第一代的 MobileNet 相比有什么区别？总体而言，MobileNetV2 模型在整体延迟范围内上实现相同的准确度要更快。特别是，目前新模型减少了两倍 operations 的数量，且只需要原来 70% 的参数，在 Google Pixel 手机上的测试表明 V2 要比 MobileNetV1 快 30% 到 40%，同时还能实现更高的准确度。

谷歌发布MobileNetV2：可做语义分割下一代移动端计算机视觉架构

MobileNetV2 不仅速度更快（降低延迟），还刷新了 ImageNet Top 1 准确度。

MobileNetV2 是一个用于目标检测和分割的非常有效的特征提取器。比如在检测方面，当 MobileNetV2 搭配上全新的 SSDLite [2]，在取得相同准确度的情况下速度比 MobileNetV1 提升了 35%。我们已通过 Tensorflow Object Detection API [4] 开源了该模型。

谷歌发布MobileNetV2：可做语义分割下一代移动端计算机视觉架构

为实现实时语义分割，我们借助简化版 DeepLabv3 [3] 把 MobileNetV2 用作特征提取器，这将稍后公布。在语义分割基准 PASCAL VOC 2012 上，MobileNetV1 与 MobileNetV2 作为特征提取器表现相当，但是后者所需的参数量减少了 5.3 倍，在 Multiply-Adds 方面 operations 也减少了 5.2 倍。

谷歌发布MobileNetV2：可做语义分割下一代移动端计算机视觉架构

正如我们所看到的，MobileV2 面向移动端提供了一个非常高效的模型，它能处理许多基本的视觉识别任务。最后，谷歌也希望能与广泛的学术社区和开源社区分享这个新模型，并期待它有新的提升与应用。

论文：MobileNetV2: Inverted Residuals and Linear Bottlenecks

谷歌发布MobileNetV2：可做语义分割下一代移动端计算机视觉架构

论文链接：https://arxiv.org/abs/1801.04381

本文中我们介绍了一种新的移动端架构——MobileNetV2，其在多任务和基准以及不同模型大小的范围上进一步刷新了移动端模型的当前最佳性能。我们还介绍了如何通过全新框架 SSDLite 将这些模型高效应用于目标检测。此外，我们也展示了通过简化版 DeepLabv3（我们称之为 Mobile DeepLabv3）构建移动端的语义分割方法。

MobileNetV2 架构基于反向残差结构，其中残差块的输入和输出是较短的瓶颈层，这与在输入中使用扩展表征的传统残差模型正相反。MobileNetV2 使用轻量级深度卷积过滤中间扩展层的特征。此外，我们发现为了保持表征能力，移除短层中的非线性很重要，这提升了性能，并带来了催生该设计的直观想法。最后，我们的方法允许将输入/输出域与转换的表现性分开，从而为未来的分析提供一个简便的框架。我们在 ImageNet 分类、COCO 目标检测、VOC 图像分割上测试了 MobileNetV2 的性能，同时也评估了精度、operations 数量（通过 MAdd 测量）以及参数量之间的权衡。

参考文献：

1. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications, Howard AG, Zhu M, Chen B, Kalenichenko D, Wang W, Weyand T, Andreetto M, Adam H, arXiv:1704.04861, 2017.

2. MobileNetV2: Inverted Residuals and Linear Bottlenecks, Sandler M, Howard A, Zhu M, Zhmoginov A, Chen LC. arXiv preprint. arXiv:1801.04381, 2018.

3. Rethinking Atrous Convolution for Semantic Image Segmentation, Chen LC, Papandreou G, Schroff F, Adam H. arXiv:1706.05587, 2017.

4. Speed/accuracy trade-offs for modern convolutional object detectors, Huang J, Rathod V, Sun C, Zhu M, Korattikara A, Fathi A, Fischer I, Wojna Z, Song Y, Guadarrama S, Murphy K, CVPR 2017.

5. Deep Residual Learning for Image Recognition, He, Kaiming, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. arXiv:1512.03385,2015

原文地址：https://research.googleblog.com/2018/04/mobilenetv2-next-generation-of-on.html

计算机视觉谷歌移动互联网终端架构电脑

sunlinyi

0 关注 0 粉丝 0 动态

相关推荐

5个优秀的计算机视觉应用与相关数据集

计算机视觉是数据科学世界中最热门的研究领域之一。而且，它已经成为我们个人生活的一部分。我们都知道或不知道地使用各种功能，这些功能在后端运行计算机视觉技术。例如，我们在智能手机中使用面部解锁。我选择人脸检测作为本文的开头，因为我们都已经看到这是计算机视觉的一

juary 2020-10-28

计算机视觉如何给企业带来不同？

计算机视觉给企业带来了新的曙光，一个美好的开端刚刚开始!查看、处理和操作视觉输入的能力是很难在机器上复制的，这正是计算机视觉的目标。计算机视觉的快速增长引起了C-suite的注意，他们在计算机视觉研究和产品开发方面投入了数十亿美元。许多跨国公司的案例都涉及

木瓜子 2020-08-04

计算机视觉岗常见面试题

使得每层的输入/输出分布更加稳定，避免参数更新和网络层次变深大幅度影响数据分布。从而使模型训练更稳定。使批归一化模块具有复原初始输出分布能力。在训练时，我们可以计算出batch的均值和方差，迭代训练过程中，均值和方差一直在发生变化。但是在推理时，均值和方差

yuanlunxi 2020-07-29

TensorFlow2020:如何使用Tensorflow.js执行计算机视觉应用程序？

本文转载自公众号“读芯术”。是的，学习并执行它并不难，现在有很多库可以用来执行如此强大的计算机视觉应用程序。你有没有关注最近有没有看TensorFlow2020峰会?今年，TensorFlow团队发布了很多非常酷的产品，本文就将介绍如何使用tensorfl

开源节流 2020-07-17

三个可能会被计算机视觉技术改变的行业

计算机视觉技术允许机器以视觉方式解释周围的世界。作为人工智能的一种形式，计算机视觉的本质上是关于数据的分析和学习，只不过需要处理的数据都是视觉数据——而不是文本或者数据。通常来说，视觉数据都是以照片或者视频的形式存在，但是也可能包含来自热像仪和红外热像仪的

Samurai 2020-06-19

图像也能做情感迁移？罗切斯特大学团队提出计算机视觉新任务

不，是图像情感迁移。与其他计算机视觉任务相比，图像情感迁移更有挑战性，需要对图像中的每个物体进行不同的情感迁移。该研究提出一种灵活有效的物体级图像情感迁移框架和新模型 SentiGAN，实验证明该框架可以有效执行物体级图像情感迁移。与图像转换和图像风格迁移

juary 2020-11-10

4个计算机视觉领域用作迁移学习的模型

使用SOTA的预训练模型来通过迁移学习解决现实的计算机视觉问题。如果你试过构建高精度的机器学习模型，但还没有试过迁移学习，这篇文章将改变你的生活。我们大多数人已经尝试过，通过几个机器学习教程来掌握神经网络的基础知识。这些教程非常有助于了解人工神经网络的基本

xceman 2020-10-15

AI创业哪家强？6大选择给你方向

人工智能被认为是当代“最热门”的工作。根据《财富》杂志统计，雇佣AI专家的人数在过去4年里增长了74%，社会对人工智能专家的需求正以前所未有的速度增长。人工智能的子领域，如机器学习、深度学习、计算机视觉、统计学和自然语言处理，对这些领域专家的需求和空缺职位

guojin0 2020-10-08

NLP/CV模型跨界，视觉Transformer赶超CNN?

在计算机视觉领域中，卷积神经网络一直占据主流地位。不过，不断有研究者尝试将 NLP 领域的 Transformer 进行跨界研究，有的还实现了相当不错的结果。近日，一篇匿名的 ICLR 2021 投稿论文将标准 Transformer 直接应用于图像，提出

cswingman 2020-10-05

可以提高你的图像识别模型准确率的7个技巧

假定，你已经收集了一个数据集，建立了一个神经网络，并训练了您的模型。但是，尽管你投入了数小时的工作来创建这个模型，它还是能得到50-70%的准确率。这肯定不是你所期望的。下面是一些提高模型性能指标的策略或技巧，可以大大提升你的准确率。epoch基本上就是你

数智集 2020-09-14

以国家战略科学家身份，顶级AI学者朱松纯回国，筹建北京通用AI研究院

知乎热帖称顶级 AI 华人学者、UCLA 教授朱松纯拟加入清华自动化系，职务为教研系列教授。经机器之心求证，此次朱松纯教授以国家战略科学家的身份回国，受邀筹建北京通用人工智能研究院并担任院长。同时，朱教授也将与北京大学、清华大学在相关领域开展研究合作。

湾区人工智能 2020-09-14

五种图像标注的简介

什么是计算机视觉?作为AI研究和开发的一个重要领域，计算机视觉旨在使计算机能够“看到”并解释所处的环境和状态。从自动驾驶汽车，到无人机勘察，再到医疗诊断，以及面部识别与辨认等场景，计算机视觉在实际应用领域发挥着巨大的作用。为了成功地模仿或超越人类的视觉功能

juary 2020-09-10

没有足够多的数据怎么办？计算机视觉数据增强方法总结

学者们针对这一问题已经研发看各种巧妙的解决方案，以避在深度学习模型中数据少的问题。近些年 Few/One-Shot Learning 和 Zero-Shot Learning 技术发展迅速，模型的性能得到了大幅度的提升。Data Augmentation：

littlethunder 2020-09-03

人工智能和物联网：智慧城市的交通管理

当今的智慧城市由不断重塑城市地区的先进技术提供发展驱动力。人工智能和物联网对于世界的运作越来越不可或缺。基于云的服务、物联网、分析平台和许多AI工具正在改变城市居民与环境互动和在环境中出行的方式。纽约市顶级AI咨询和开发机构Blue Orange Dig

木瓜子 2020-08-31

PG&E使用AI来降低野火风险

2018年，一场由太平洋天然气电力公司的输电线路故障所引发的大火席卷了加州北部的巴特县，造成了85人死亡，近1.9万栋建筑被毁。今年6月，PG&E的首席执行官兼总裁Bill Johnson代表该公司在巴特县高级法院承认了84项过失杀人罪和一项非法

邓肯 2020-08-30

为什么AI感知与人类感知无法直接比较？

在开发AI系统的企业中，我们经常会听到这类表述，其指向范围则涵盖人脸识别、物体检测，乃至问题解答等各个方面。随着机器学习与深度学习的不断进步，近年来越来越多卓越的产品也开始将AI算法作为自身的实现基础。一旦贸然将关键性任务交付给AI模型，这种草率的考核标准

PokiFighting 2020-08-27

[ Datawhale ] 计算机视觉下 —— HOG特征描述算子

HOG特征能够很好地反映人体或汽车的轮廓，而且对整体光照、亮度等不敏感。现在比较流行HOG和SVM组合使用，在行人检测、车辆检测、跟踪方面有比较广泛的运用。因此两者结合之后，在检测方面具有良好的性能和鲁棒性。

ibelieveican0 2020-07-05

Deep Learning for Image Super-resolution: A Survey

图像超分辨率是提高计算机视觉中图像和视频分辨率的一类重要图像处理技术。近年来，利用深度学习技术实现图像超分辨率技术取得了显著进展。在调查中，我们的目的是给出在一个系统的方式中使用深度学习方法来实现图像超分辨率的最新进展。我们可以将现有的SR技术研究大致分为

littlethunder 2020-06-05

知乎热议：未来3到5年内，哪个方向机器学习人才最稀缺？

未来3到5年内，哪个方向的机器学习人才最紧缺？今天我们就来梳理一下。全栈式工程师在初创公司受欢迎，领域专精的算法人才在大公司很吃香，应用型人才能够快速提升业务，而工程化是落地的重要一环。AI专业毕业后好找工作吗？此前，知乎上一位CV专业的985高校研究生曾

wishchinYang 2020-06-03

人工智能的三大领域及其工业应用

人工智能是一门新兴的技术学科，研究和开发用于模拟人类智能的扩展和扩展的理论，方法，技术和应用系统。人工智能研究的目标是让机器执行一些复杂的任务，这些任务需要聪明的人来完成。也就是说，我们希望机器可以代替我们来解决一些复杂的任务，不仅仅是重复的机械活动，而是

purgle 2020-06-01

sunlinyi

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号