Facebook强势发布开源语音识别工具包——wav2letter

kiriod

2018-01-02

今日凌晨，Facebook AI研究中心宣布开源语音识别工具包wav2letter！这是一款简单高效的端到端自动语音识别（ASR）系统，wav2letter 实现的是论文 Wav2Letter: an End-to-End ConvNet-based Speech Recognition System 和 Letter-Based Speech Recognition with Gated ConvNets 中提出的架构。

16年11月，Facebook的三位研究者Ronan Collobert, Christian Puhrsch, Gabriel Synnaeve在arXiv.org上发布文章，正式提出了wav2letter。

文章中研究者介绍，这是一个简单的端到端语音识别模型，结合了基于卷积网络的声学模型和图解码。其被训练输出文字，转录语音，而无需强制对齐音素。wav2letter还引入了一个自动的序列标注训练分割准则，而不需要与CTC一致的对齐方式，这种方式更简单。

项目代码已经发布至GitHub，如果你想直接开始进行语音转录，你可以使用同时被开源的预训练好的一些模型，前提是完成必要的安装。当然，目前能识别的只有英文语音哦！

开源代码GitHub链接：

https://github.com/facebookresearch/wav2letter

论文arXiv链接：

https://arxiv.org/abs/1609.03193

Facebook强势发布开源语音识别工具包——wav2letter

Facebook也发布了公开信介绍这一开源项目，包括该项目主要负责人Ronan Collobert、Facebook AI研究中心负责人Yann Lecan等在内的研究者都在推特上介绍了这一发布。

Facebook强势发布开源语音识别工具包——wav2letter

文摘菌摘录了部分公开信内容如下：

我们刚刚开源我们的语音识别工具：wav2letter！

代码地址：

https://github.com/facebookresearch/wav2letter

我们将其与在LibriSpeech语料库中预先训练的一些模型一起发布，支持我们的最新论文Letter-Based Speech Recognition with Gated ConvNets。

wav2letter是在Torch上编写的一个简单的工具包，简化了对端到端语音识别系统的训练，并提供了一个允许快速解码的独立解码器。

它使我们能够复现我们最近的3篇论文（详见参考资料）。

敬请期待我们的更多研究。

Gabriel Synnaeve，Vitaliy Liptchinsky，Neil Zeghidour和Christian Puhrsch。

更多参考资料：

语料库 LibriSpeech。

http://www.openslr.org/12

论文 Letter-Based Speech Recognition with Gated ConvNets。

https://arxiv.org/abs/1712.09444

论文 Wav2Letter: an End-to-End ConvNet-based Speech Recognition System。

https://arxiv.org/abs/1609.03193

论文 Learning Filterbanks from Raw Speech for Phone Recognition。

https://arxiv.org/abs/1711.01161

语音识别自然语言处理脸书开放源代码人工智能

安科网

Facebook强势发布开源语音识别工具包——wav2letter

kiriod

kiriod

相关推荐

基于OpenSeq2Seq的NLP与语音识别混合精度训练

人工智能的三大领域及其工业应用

使用Python和Keras创建简单语音识别引擎

百度语音识别新算法准确率提升超30%，鸿鹄芯片彰显AI落地新打法

达摩院公布语音AI新进展：移动端也能实现逼近真人的语音交互体验

腾讯云小微等语音助手持续发力，AI语音技术应用和生态融合

Kaldi 语音识别基础教程

Python使用Speech_Recognition实现普通话识别

使用Python进行语音识别---将音频转为文字

教你怎样用Python进行语音识别

AI 大牛 Daniel Povey 加入小米，将在小爱同学 3.0 发布首次亮相

科大讯飞董事长刘庆峰：AI在各领域应用落地需对应三大标准

云从的长征路

英文语音、方言语音识别样样拿手，百度输入法率先实现“语音自由说”

Nodejs 微信开发之语音识别

云知声 Open Day 北京站：全栈 AI 硬核技术曝光

重磅！MaxCompute助力阿里开源自研语音识别模型DFSMN，准确率高达96.04%

Win10正式版怎么开启Cortana语音识别及搜索功能?

Win10如何禁止开机自动运行语音识别

Win7系统如何通过口令操作电脑设置使用语音操作Win7系统图文教程

kiriod