旷视科技Face++公开COCO2017冠军模型

BitTigerio

2017-12-04

今年 ICCV2017 会议期间，COCO +Places2017 挑战赛公布了获奖榜单。在COCO Challenge 和 Places Challenge 两个板块的七项比赛中，旷视科技（Face++）拿下了 COCO Detection/Segmentation Challenge（检测/分割）、COCO Keypoint Challenge（人体关键点检测）、Places Instance Segmentation（实体分割）三个项目的冠军。

有趣的是，Places Challenge 中允许提交五次成绩，旷视在实体分割项目上第一次提交的成绩就以0.27717 Mean AP远远甩开了其它队伍中的最好成绩0.24150，最终的第三次提交更继续提升到了0.29772，稳坐第一名。

近日，旷视科技研究院就在arXiv上连发三篇论文，内容包括了自己在COCO +Places2017 挑战赛中的获奖模型。AI 科技评论把这三篇论文简单介绍如下，感兴趣的读者欢迎查看原论文仔细研究。

Light-Head R-CNN: In Defense of Two-Stage Object Detector

· 轻量头部 R-CNN：守护两阶段物体检测器的尊严

· 论文地址：https://arxiv.org/abs/1711.07264

· 论文简介：这篇论文中，作者们首先探究了典型的两阶段物体检测方法没有YOLO和SSD这样的单阶段检测方法运行速度快的原因。他们发现，Faster R-CNN 和 R-FCN 在候选区域产生前或后都会进行高强度的计算。Faster R-CNN 在候选区域识别后有两个全连接层，而 R-FCN 会产生一张很大的分数表。这些网络由于有这样的高计算开销的设计，运行速度就较慢。即便作者们尝试大幅度缩减基准模型的大小，计算开销也无法以同样幅度减少。

旷视科技的作者们在论文中提出了一个新的两阶段检测器，Light-Head R-CNN，轻量头部 R-CNN，意在改善当前的两阶段方法中计算开销大的缺点。在他们的设计中，通过使用小规模的feature map和小规模的R-CNN子网络（池化层和单个全连接层），网络的头部被做得尽可能轻量化。作者们基于ResNet- 101 构造了一个轻量头部的R-CNN网络，在COCO数据集上超越当前最好水准的同时还保持了很高的时间效率。更重要的是，只要把骨干结构换成一个较小的网络（比如 Xception），作者们的 Light-Head R-CNN 就可以在COCO数据集上以102FPS的运行速度得到30.7mmAP的成绩，在速度和准确率两个方面都明显好于YOLO和SSD这样的快速单阶段检测方法。相关代码将会公开发布。

检测精度与推理时间对比图

Cascaded Pyramid Network for Multi-Person Pose Estimation

· 用于多人姿态估计的级联金字塔网络CPN

· COCO Keypoint Challenge 第一名

· 论文地址：https://arxiv.org/abs/1711.07319

· 论文简介：多人姿态估计这个课题的研究成果近期有了很大的提升，尤其是在卷积神经网络快速发展的帮助下。然而，还是有许多情境会造成检测困难，比如关键点重叠、关键点不可见以及背景复杂的情况都还解决得不理想。在这篇论文中，作者们提出了一种新的网络结构 Cascaded Pyramid Network，级联金字塔网络 CPN，意在解决这些困难情境下的关键点识别问题。具体来说，他们的算法包含两个阶段，GlobalNet 和 RefineNet。GlobalNet 是一个特征金字塔网络，它可以找到所有“简单”的关键点，比如眼、手；重叠的或者不可见的关键点就可能无法准确识别。然后RefineNet 是专门用来处理“难”的关键点的，它会把 GlobalNet 中所有级别的特征表征和一个难关键点的挖掘损失集成到一起。总的来说，为了解决多人姿态预测问题，他们采用了一个逐步细化的流水线，首先用检测器生成一组边界框，框出图中的人体，然后用级联金字塔网络 CPN在每个人体边界框中定位关键点。

根据所提的算法，旷视科技的作者们在COCO的关键点检测比赛中刷新了最好成绩，在COCO test-dev 数据集上取得73. 0 的平均精度，并在COCO test-challenge 数据集上取得72. 1 的平均精度。这一成绩比COCO 2016 关键点检测比赛的最好成绩60. 5 提升了19%之多。

CPN 的部分检测结果

MegDet: A Large Mini-Batch Object Detector

· mini-batch很大的物体检测模型MegDet

· COCO Detection/Segmentation Challenge 第一名

· 论文地址：https://arxiv.org/abs/1711.07240

· 论文简介：基于CNN的物体检测研究一直在不断进步，从 R-CNN 到 Fast/Faster R-CNN，到近期的 Mask R-CNN，再到 RetinaNet，主要的改进点都在于新的网络架构、新的范式、或者新的损失函数设计。然而mini-batch大小，这个训练中的关键因素并没有得到完善的研究。在这篇论文中，作者们提出了一个大mini-batch物体检测模型MegDet，从而可以使用远大于以往的mini-batch大小训练网络（比如从 16 增大到256），这样同时也可以高效地利用多块GPU联合训练（在论文的实验中最多使用了 128 块GPU），大大缩短训练时间。技术层面上，作者们也了提出了一种学习率选择策略以及跨GPU的batch normalization方法，两者共同使用就得以大幅度减少大mini-batch物体检测器的训练时间（例如从 33 小时减少到仅仅 4 个小时），同时还可以达到更高的准确率。文中所提的MegDet就是提交到COCO2017 比赛的mmAP 52.5%成绩背后的骨干结构，这个成绩也拿下了检测任务的第一名。

同一个物体检测网络在COCO数据集上训练的验证准确率，mini-batch数量为 16 的运行在 8 块GPU上， 256 的运行在 128 块GPU上。mini-batch更大的检测器准确率更高，训练速度也几乎要快一个数量级。

“4. 6 亿美元融资”、“姚期智院士加盟”、“人脸识别方案应用于多款手机上”，再加上COCO比赛相关的技术成果和比赛成绩，仅近期的几则消息就可以说明旷视科技已经走得很大、很稳了。相信未来旷视科技研究院将在计算机视觉领域做出更多的研究成果，在世界范围内取得商业和学术的双丰收。

免责声明：本文为厂商推广稿件，企业发布本文的目的在于推广其产品或服务，安科网发布此文仅为传递信息，不代表安科网赞同其观点，不对对内容真实性负责，仅供用户参考之用，不构成任何投资、使用等行为的建议。请读者使用之前核实真实性，以及可能存在的风险，任何后果均由读者自行承担。

科技 coco 旷视科技

安科网

旷视科技Face++公开COCO2017冠军模型

BitTigerio

BitTigerio

相关推荐

从场景到情景聚好看科技助力打通“屏-网-云”构筑智慧生活

擎朗机器人带您切身感受进博会“黑科技”

你的“专属秒拍” 在华为云上实现轻松迁移

人工智能和机器学习：金融科技行业的新蓝图

33岁大叔自学编程，简历被拒的他是如何8个月就在Twitter上找到工作的？

北京软协筹备成立“人工智能专委会”亚信科技欧阳晔博士当选会长

亚信科技“钢铁企业数据中台解决方案”荣获“2020年度优秀解决方案奖”

科技趋势年末盘点：德勤2020技术趋势报告解读

中美将爆发科技冷战？人工智能是“导火索”

亚信科技当选“RPA产业推进方阵”副理事长单位

科技改变未来，未来快递员也会失业，只有驿站没有快递员

谷歌、脸书、亚马逊……这10大科技巨头都在使用Python

亚信科技加盟中国联通网络AI论坛，发起成立自动驾驶网络创新研究基地

蚂蚁集团CEO胡晓明：上市后最重要的事是投技术

机器人怕“疼”，是科技的进步还是伦理的挑战

竟能让照片人物动起来唱歌！这AI黑科技被玩坏了

从智能运维到智慧运营擎创科技赋予企业夏洛克“侦探”能力

第四代机器人问世灵动科技在AMR领域的坚持与创新

号称最好的国产操作系统能否挑战Windows 10

聚力赋能·共享共创｜吉鼎科技与厦门6大高校“敏捷开发教学研讨会”圆满成功！

BitTigerio