谷歌开放语音命令数据集，助力利用深度学习解决音频识别问题

旭峰

2017-08-25

关注关注

选自Google Research

机器之心编译

参与：路雪

近日，谷歌开放语音命令数据集，发布新的音频识别教程，旨在帮助初学者利用深度学习解决语音识别和其他音频识别问题。

语音命令数据集地址：http://download.tensorflow.org/data/speech_commands_v0.01.tar.gz
音频识别教程地址：https://www.tensorflow.org/versions/master/tutorials/audio_recognition

在谷歌，我们经常被问到如何使用深度学习解决语音识别和其他音频识别问题，比如检测关键词或命令。尽管已经有很多大型开源语音识别系统，如 Kaldi，这些系统可以把神经网络作为一个模块使用，但是它们的复杂性导致其很难用于指导简单的任务。更重要的是，并没有多少适合初学者的免费、开源数据集（部分数据集需要在构建神经模型之前进行预处理）或适合简单的关键词检测任务的数据集。

为了解决这些问题，TensorFlow 和 AIY 团队创建了语音命令数据集，并用它向 TensorFlow 中添加训练和推断的示例代码。该数据集有 30 个短单词的 65000 个长度 1 秒钟的发音，这些音频由数千人通过 AIY 网站提供。它随 Creative Commons BY 4.0 license 发布，并将随着音频的增多持续发布新版本。该数据集旨在帮助构建基础但有用的应用程序语音接口，包括常用单词「是」（Yes）、「否」（No）、数字和方向词。我们还开源了用于创建该数据集的基础架构，希望更多人使用它创建自己的数据集，尤其是能够覆盖到服务水平不足的语言和应用。

想自己试试，那么下载 TensorFlow 安卓演示应用程序的预置数据集（http://ci.tensorflow.org/view/Nightly/job/nightly-android/lastSuccessfulBuild/artifact/out/tensorflow_demo.apk）并打开「TF Speech」。你可以申请耳机的访问权限，然后就会看到一个十个单词的列表，你说哪个单词，它就会点亮。

谷歌开放语音命令数据集，助力利用深度学习解决音频识别问题

识别结果取决于你的语音模式是否被数据集覆盖，因此这并不完美，商业语音识别系统比这个教学示例复杂的多。但是我们希望，随着更多口音和变体加入数据集，社区向 TensorFlow 贡献改进后的模型，我们能够看到数据集的不断改进和扩展。

你还可以通过 TensorFlow.org 上新的音频识别教程学习如何训练自己的模型。有了该框架的最新开发版本（https://hub.docker.com/r/tensorflow/tensorflow/）和现代的桌面电脑，你可以下载该数据集并在几小时内训练模型。你还拥有多种选择来为不同的问题定制神经网络，产生不同的延迟时间、规模、精度的平衡以适应不同的平台。

我们很期待看到大家在该数据集和教程的帮助下构建的新应用，因此我希望大家有机会利用这些资源，开始做音频识别任务！

Interspeech 2015 会议上展示的《Convolutional Neural Networks for Small-footprint Keyword Spotting》（http://www.isca-speech.org/archive/interspeech_2015/papers/i15_1478.pdf）中对该网络的架构进行了描述。

机器学习谷歌深度学习

安科网

谷歌开放语音命令数据集，助力利用深度学习解决音频识别问题

旭峰

旭峰

相关推荐

全面解读谷歌云人工智能如何为机器学习提供帮助

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

研究员准备让智能设备用AI来判断你的声音来自哪里

自动驾驶汽车深度学习如何应对挑战?

不要上手就学深度学习！超详细的人工智能专家路线图，GitHub数天获2.1k星

DJL 如何正确打开 [ 深度学习 ]

揭开AI、机器学习和深度学习的神秘面纱

用 Java 训练深度学习模型，原来可以这么简单！

面向深度学习的五大神经网络模型及其应用

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

旭峰