68款大规模机器学习数据集，涵盖CV、语音、NLP | 十年资源集

fwjntu

2019-03-22

作者 | 琥珀出品 | AI科技大本营（ID:rgznai100）

此前营长为大家分享过不少机器学习相关数据集的资源，例如 Mozilla 的 1400 小时开源语音数据集；ApolloScape 的大规模自动驾驶数据集；腾讯 AI Lab 的 “Tencent ML-Images” 项目，甚至还有谷歌团队推出的 Google Dataset Search（Google 数据集搜索）……

对于日常从事模型训练的研究人员来讲，无论是图像处理还是语音识别，都离不开一些高质量的数据集，通过它们以改善模型的性能。

近日，reddit 论坛上，一位网友发帖分享了 datasetlist.com 的网站链接，得到了不少同行们的点赞。据了解上面集合了从 2009 年 ImageNet 发布以来共计 68 项机器学习相关的大规模数据集，囊括计算机视觉（46 项）、自然语言处理（18 项）、语音（4 项）三大类别，帮助用户快速找到相应的数据集。由此，我们还可以看到自 2015 年以来，大规模数据集的不断涌现也暗示着人工智能技术作为集大成者的快速演进。

68款大规模机器学习数据集，涵盖CV、语音、NLP | 十年资源集

这套数据集搜索列表的出现，也满足了不少强迫症患者对于选择 / 整理数据集的想法。不过，也正如这位网友所言：这个数据集列表的形式将有待完善和丰富，设计这个网页的目的也是希望接下来不断更新新的数据集，同时，用户也可以通过邮箱、Twitter、Facebook 等方式订阅以获取最新内容。

下面，让营长介绍下该数据集列表的主要内容：

语音识别：

Mozilla Common Voice

2019 年 3 月 1 日，由 Mozilla 基金会发起的 Common Voice 项目，发布新版语音识别数据集，包括来自 42000 名贡献者，超过 1400 小时的语音样本数据，涵盖包括英语、法语、德语、荷兰语、汉语在内的 18 种语言。

地址：https://voice.mozilla.org/zh-CN

68款大规模机器学习数据集，涵盖CV、语音、NLP | 十年资源集

NSynth
Google Audioset
LibriSpeech

计算机视觉

IBM Diversity in Faces Dataset

IBM 推出的“人脸多样性”（Diversity in Faces Dataset，DiF）是一个庞大而多样化的数据集，与以前的数据集相比，DiF 数据集提供了更均衡的分布和更广泛的面部图像覆盖率。DiFferences 提供了 100 万注释的数据集人类面部图像。

地址：

https://www.research.ibm.com/artificial-intelligence/trusted-ai/diversity-in-faces/

68款大规模机器学习数据集，涵盖CV、语音、NLP | 十年资源集

NVIDIA Flickr-Faces-HQ 数据集

英伟达推出的 Flicker 人脸高清数据集（FFHQ）由 70,000 个高质量的 PNG 格式图像组成，分辨率为 1024*1024。这些图片在年龄、种族和图像背景方面有很强的多样性，并且还有如眼镜、太阳镜、帽子等元素。

地址：

https://github.com/NVlabs/ffhq-dataset

68款大规模机器学习数据集，涵盖CV、语音、NLP | 十年资源集

Google Open Images V4

Open Images 是一个包含约 900 万个 URL 的数据集，由谷歌在 2018 年 4 月 30 日开放，它包含在 190 万张图片上针对 600 个类别的 1540 万个边框盒。

地址：

https://storage.googleapis.com/openimages/web/index.html

68款大规模机器学习数据集，涵盖CV、语音、NLP | 十年资源集

Tencent ML- Images

Tencent ML- Images 是最大的开源多标签图像数据集，包括 17,609,752 个训练和 88,739 个验证图像 URL，最多可注释 11,166 个类别。

地址：

https://github.com/Tencent/tencent-ml-images

68款大规模机器学习数据集，涵盖CV、语音、NLP | 十年资源集

Youtube-8M 2018

Youtube-8M 2018 是一个大型标记视频数据集，由 600 万个 YouTube 视频 ID 组成，目前具有 4700 多个视觉实体标签，同时它还配备了数十亿帧和音频片段的预先计算的视听功能。

地址：

https://research.google.com/youtube8m/index.html

68款大规模机器学习数据集，涵盖CV、语音、NLP | 十年资源集

Fashion MNIST

Fashion-MNIST 由德国研究机构 Zalando Research 公布，包含 60000 个样本，测试集包含 10000 个样本，分为 10 类，每一个都是 28×28 的灰度图。

地址：

https://github.com/zalandoresearch/fashion-mnist

68款大规模机器学习数据集，涵盖CV、语音、NLP | 十年资源集

当然，此外还有 MegaFace、ImageNet 等非常经典的数据集，以下营长就不一一列举了。

GQA
Berkeley Deep Drive (BDD100K)
HighD - The Highway Drone Data
Comma 2k19
HD1K Benchmark Suite
VQA Visual Question Answering
ApolloScape
nuScenes
MURA
Synscapes
fastMRI Dataset
Mapillary Vistas
Places2
Youtube-BoundingBoxes
ADE20K
WildDash
Oxford RobotCar Dataset
Recipe1M
MegaFace
SceneNet RGB-D
MS-Celeb-1M
SYNTHIA
UMD Faces
comma.ai
Spacenet
CompCars
ShapeNet
WIDER Face
WIDER
LSUN
Visual Genome
Cityscapes
ACTIVITYNET
COCO
Yahoo Flickr Creative Commons 100M
Pascal part
Flickr30k
KITTI
SVHN Street View House Numbers
ImageNet

自然语言处理

SQuAD

斯坦福问答数据集（SQuAD）是一个全新的阅读理解数据集，由工作人员基于一系列维基百科文章中的提问和答案组成，其中每个问题的答案是来自相应阅读段落的一段文本片段或区间。其中包括超过 500 篇文章中超过 100,000 个问答配对，使得 SQuAD 显著大于以前的阅读理解数据集。SQuAD2.0 结合了 SQuAD1.1 中的 100,000 个问题。

地址：

https://rajpurkar.github.io/SQuAD-explorer/

68款大规模机器学习数据集，涵盖CV、语音、NLP | 十年资源集

此外还有：

MultiNLI
CoQA
Spider 1.0
HotpotQA
Question Pairs (Quora)
Yelp open dataset
Facebook bAbI
MS MARCO
NewsQA
Datasets from DBPedia, Amazon, Yelp, Yahoo!, Sogou, a
DeepMind Q&A dataset
Text Classification Datasets
SNLI
Billion Words
Stanford Sentiment Treebank
Large Movie Review Dataset
Princeton WordNet

（本文为 AI科技大本营原创文章，转载请微信联系 1092722531）

机器学习 nlp 大数据 mozilla

安科网

68款大规模机器学习数据集，涵盖CV、语音、NLP | 十年资源集

fwjntu

fwjntu

相关推荐

为什么企业应该了解聊天机器人中的自然语言处理？

需要知识的后深度学习时代，如何高效自动构建知识图谱

数据科学面试中应了解的十种机器学习概念

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中处理缺失值的9种方法

人工智能和机器学习如何从物联网数据中提取关键见解

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

fwjntu