TensorFlow中超大的30个机器学习数据集

Kindle君

2020-07-15

导读

包括图像，视频，音频，文本，非常的全。

由谷歌Brain的研究人员创建的TensorFlow是机器学习和数据科学领域最大的开源数据库之一。它是一个端到端的平台，适用于初学者和有经验的数据科学家。TensorFlow库包括工具、预训练模型、机器学习指南，以及开放数据集的语料库。为了帮助你找到所需的训练数据，本文将简要介绍一些用于机器学习的最大的TensorFlow数据集。我们已经将下面的列表分为图像、视频、音频和文本数据集。

图像数据集

1、CelebA: 最大的公开的人脸图像数据集之一，名人脸属性数据集(CelebA)包含超过20万名名人的图像。

每幅图像包含5个面部特征点和40个二值属性标注。

2、Downsampled Imagenet：该数据集用于密度估计和生成建模任务。它包含130多万幅物体、场景、车辆、人物等图像。这些图像有两种分辨率：32 x 32和64 x 64。

3、Lsun – Lsun是一个大型图像数据集，用于帮助训练模型理解场景。数据集包含超过900万张图像，这些图像被划分为场景类别，例如卧室、教室和餐厅。

4、Bigearthnet – Bigearthnet是另一个大型数据集，包含来自Sentinel-2卫星的航空图像。每幅图像覆盖1.2 km x 1.2 km的地面。每张图像包括43个不平衡标签。

5、Places 365 – 顾名思义，Places 365包含了180多万张不同地方或场景的图片。其中包括办公室、码头和小屋。Places 365是用于场景识别任务的最大数据集之一。

6、Quickdraw Bitmap – Quickdraw数据集是Quickdraw玩家社区绘制的图像集合。它包含了500万幅横跨345个类别的画作。这个版本的Quickdraw数据集包括28 x 28灰度格式的图像。

7、SVHN Cropped – 来自斯坦福大学的街景门牌号(SVHN)是一个TensorFlow数据集，用来训练数字识别算法。它包含600,000个真实世界的图像数据样本，这些数据被裁剪成32 x 32像素。

8、VGGFace2 – 最大的人脸图像数据集之一，VGGFace2包含从谷歌搜索引擎下载的图像。这些脸因年龄、姿势和种族而不同。每个受试者平均有362张图像。

9、COCO – 由谷歌，FAIR, Caltech和更多的合作者制作，COCO是世界上最大的标记图像数据集之一。它用于目标检测、分割和图像描述任务。

数据集包含330,000张图像，其中200,000张已被标注。在这些图像中有分布在80个类别中的150万个物体实例。

10、Open Images Challenge 2019 – 包含大约900万幅图像，这个数据集是在线可用的最大的标注图像数据集。包含图像级标签、物体边框和物体分割掩码，以及视觉关系。

11、Open Images V4 – 这个数据集是上面提到的开放图像数据集的另一个迭代。V4有600个不同的物体类包含1460万个边框。边界框是由人工标注人员手动绘制的。

12、AFLW2K3D – 该数据集包含2000个面部图像，所有标注了3D人脸特征点。它是用来评估三维人脸特征点检测模型的。

视频数据集

13、UCF101 – 来自中佛罗里达大学的UCF101是一个用来训练动作识别模型的视频数据集。该数据集有13,320个跨越101个动作类别的视频。

14、BAIR Robot Pushing – 来自伯克利人工智能研究中心的BAIR Robot Pushing包含了44000个机器人推动运动的示例视频。

15、Moving MNIST – 该数据集是MNIST基准数据集的一个变体，Moving MNIST包含10,000个视频。

16、EMNIST – 扩展MNIST包含从原始MNIST数据集转换为28 x 28像素格式的数字。

音频数据集

17、CREMA-D – CREMA-D是为情感识别任务而创建的，包括声音情感表达。这个数据集包含7,442个音频片段，由91个不同年龄、种族和性别的演员配音。

18、Librispeech – Librispeech是一个简单的音频数据集，它包含1000小时的英语语音，这些语音来自LibriVox项目的有声读物。它被用于训练声学模型和语言模型。

19、Libritts – 这个数据集包含大约585小时的英语演讲，是在谷歌Brain team成员的协助下准备的。Libritts最初是为文本到语音(TTS)研究设计的，但可以用于各种语音识别任务。

20、TED-LIUM – TED- lium是一个包含超过110小时的英语TED演讲的数据集。所有谈话都已抄录下来。

21、VoxCeleb – VoxCeleb是一个用于扬声器识别任务的大型音频数据集，包含来自1,251名扬声器的超过150,000个音频样本。

文本数据集

22、C4 (Common Crawl’s Web Crawl Corpus) – Common抓取是web页面数据的开放源码存储库。它有40多种语言，涵盖了7年的数据。

23、Civil Comments – 这个数据集包含了来自50个英语新闻网站的超过180万份公众评论。

24、IRC Disentanglement – 这个TensorFlow数据集包含了来自Ubuntu IRC频道的77000多条评论。每个样本的元数据包括消息ID和时间戳。

25、Lm1b – 这个数据集被称为语言模型基准测试，它包含10亿个单词。它最初是用来衡量统计语言建模的进展。

26、SNLI – 斯坦福自然语言推理数据集是一个包含570,000对人类书写的句子的语料库。所有对都经过人工标记，以达到类别平衡。

27、e-SNLI – 这个数据集是上面提到的SNLI的扩展，它包含了原始数据集的570,000对句子，分类为：entailment，contradiction和neutral。

28、MultiNLI – 以SNLI数据集为模型，MultiNLI包括433,000对句子对，它们都标注了entailment信息。

机器学习 tensorflow mnist

安科网

TensorFlow中超大的30个机器学习数据集

Kindle君

导读

图像数据集

视频数据集

音频数据集

文本数据集

Kindle君

相关推荐

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

理解AI：为什么要在人工智能系统中寻求可解释性呢？

机器学习的未来就在这里：高斯过程和神经网络是等价的

Python 用5行代码学机器学习—线性回归

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

Kindle君