63万张！旷视发布最大物体检测数据集Objects365 | 技术头条

大数据文摘

2019-04-17

编辑 | 琥珀

来源 | AI科技大本营（id：rgznai100）

昨日，在旷视科技联合北京智源人工智能研究院举办的发布会上，旷视研究院发布了物体检测数据集 Objects365，包含 63 万张图像数量，365 个类别数量，高达 1000 万的框数。旷视首席科学家兼研究院院长孙剑在活动上表示，该数据集也是新一代通用物体检测数据集，具有规模大、质量高、泛化能力强的特点。

63万张！旷视发布最大物体检测数据集Objects365 | 技术头条

Objects365与大型经典数据集的基本对比

相较于 COCO 数据集，Objects365 包含 63 万张图像，数量约 5 倍于COCO；包含约 1000万标注框，数量 11 倍于 COCO 数据集标注框；Objects365 每张图像的平均标注框为 15.8个，更是 2 倍以上于COCO数据集；同时还涵盖了 365 个日常物体类别。

63万张！旷视发布最大物体检测数据集Objects365 | 技术头条

Objects365 与 COCO/VOC 详细对比

由上图可知，即便去除其他类别而仅考虑收录于 COCO 或 VOC 数据集的 80 类和 20 类，在每张图像平均框数和类别数这两项指标上，Objects365 依然优于 COCO 和 VOC；通过分析发现，原因不仅在于数据分布的不同，还在于标注过程减少了漏标，尤其是小目标。此外，Objects365 的平均标注区域占比也超过 COCO 和 VOC。

63万张！旷视发布最大物体检测数据集Objects365 | 技术头条

4 类数据集中，图像包含类别数的对比

如图所示，4 个不同的数据集中，拥有不同类别数量的图像所占的比例；Objects365 的峰值是每张图相平均具有 5 个不同的类别；而其他三个数据集，大多数图像所包含的类别数量在 1-2 个。

孙剑表示，算法优化的上限严重依赖于基准数据集的质量。为保证标注质量，在打造Objects365时，旷视设计出一套科学而严格的标注流程。

63万张！旷视发布最大物体检测数据集Objects365 | 技术头条

Objects365 的标注图像示例

此外，Objects365预训练模型在使用过程中，可以轻松超越现有算法的精度，显著加速收敛过程，表现出极强的泛化能力。在执行COCO、VOO Det、CityPersons等检测任务时，在VOC Seg和ADE等分割任务上均有显著提升。

DIW 2019 挑战赛启动

此外，由旷视科技旷视联合北京智源人工智能研究院举办的 Detection In the Wild 2019（DIW 2019）挑战赛也发布会当天正式启动。

赛程安排：

4月10日：比赛正式开始，开放比赛队伍注册，同步发布训练集和验证集。
5月10日(23:59 PST)：发布测试集数据。
6月10日(23:59 PST)：测试集提交阶段结束，比赛截止。
6月17日：公布比赛结果，获胜队介绍参赛经验。

主办方为每个赛道的冠军队伍准备了10000美元的奖励。届时，优胜队将在CVPR现场的研讨会上介绍经验，共同探讨检测问题的瓶颈及优化方向。

DIW2019挑战赛的比赛赛道分为三个赛道，即Objects365赛道、Objects365小赛道和CrowdHuman赛道。

更多信息可查看：

https://www.objects365.org/workshop2019.html

智源学者计划拟公式

旷视研究员张祥雨入选

发布会上，北京智源学者计划对外进行了透露，并对首批智源学者的候选人名单进行了拟公示，共9位，分别是：

北京大学特聘研究员朱占星：他在深度学习的泛化性和鲁棒性方面取得了高水平成果，曾获国际计算机安全领域顶级会议CCS2018最佳论文提名。
北京大学副研究员章斯鑫：他建立了深度学习和小波分析的联系，论文曾发表在国际机器学习和应用数学顶级期刊上。
北京应用物理与计算数学研究所副研究员王涵：他在分子动力学的数值分析方面取得突出成果，在《物理评论快报（Physical Review Letters）》等国际顶级学术期刊上发表文章30余篇。
北京大学副教授邵嗣烘：他23岁时即获得中国计算数学学会优秀青年论文一等奖，在计算量子力学前沿做出了重要贡献。
清华大学助理教授林乾：他在高维数据和复杂模型的统计分析理论方面取得了高水平的研究成果，是相关领域杰出的青年学者。
清华大学助理教授黄高：他提出了随机深度网络、自适应推理神经网络等深度学习算法模型，曾获得2017年国际计算机视觉与模式识别会议（CVPR）最佳论文奖。
旷视科技研究院资深研究组负责人张祥雨博士：他是青年科学家候选人中最年轻的一位，仅28岁。多个高影响力卷积神经网络模型的主要研发者之一，曾获得2016年国际计算机视觉与模式识别会议（CVPR）最佳论文奖、国际顶级计算机视觉竞赛多项冠军。
清华大学长聘副教授崔鹏：他在网络表示学习和社会感知的多媒体计算方面取得一系列创新成果，获得国家自然科学二等奖一项和省部级一等奖三项，入选中组部万人计划青年拔尖人才，荣获中国计算机学会青年科学家奖和国际计算机协会中国新星奖。
清华大学长聘副教授唐平中：他致力于人工智能与博弈论的交叉研究，设计人工智能与优化算法，大幅度提升了互联网公司核心经济指标。

此外，发布会上，“北京智源 - 旷视智能模型设计与图像感知联合实验室”成立，该联合实验室拟由旷视研究院院长孙剑任实验室主任，研究员周舒畅任实验室副主任。

（本文为AI科技大本营整理文章，转载请联系联系 1092722531）

大数据 coco 旷视科技

安科网

63万张！旷视发布最大物体检测数据集Objects365 | 技术头条

大数据文摘

大数据文摘

相关推荐

docker容器与宿主机的数据交互方式总结

分布式文档存储数据库之MongoDB备份与恢复的实践详解

分布式文档存储数据库之MongoDB分片集群的问题

详解Vue数据驱动原理

vue+echarts+datav大屏数据展示及实现中国地图省市县下钻功能

THINKPHP5分页数据对象处理过程解析

需要知识的后深度学习时代，如何高效自动构建知识图谱

人工智能技术如何落地交通出行？

将云技术带入数据中心-走向数据驱动型业务的旅程

联想持续发力智能物联，构建新基建时代下的行业新引擎

数据科学面试中应了解的十种机器学习概念

Forrester发布全栈公有云开发平台报告，腾讯云再次入选领导者象限

雾计算在物联网中的应用

AI格局正在从“数据”转变为“知识”

SAP AMDP介绍 - ABAP托管的HANA数据库过程

数据骗子无处不在，教你拆穿所谓“万金油”

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中处理缺失值的9种方法

人工智能和机器学习如何从物联网数据中提取关键见解

IT打工人，AI来“抢”你饭碗了！这次从数据中心下手

大数据文摘