Python使用Speech_Recognition实现普通话识别

朱建伟

2019-12-24

最近因学习任务，对语音识别需要了解，所以现在就把一些学习过程遇到的问题解决方法分享给大家。首先pyhon提供了许多语音识别库，大致包含：
Python使用Speech_Recognition实现普通话识别
上述语音识别软件库各个之间的侧重点不同，如：谷歌云语音侧重语音向文本转换，又如wit与apiai还提供超出基本语音识别的内置功能（识别讲话者意图的自然语言处理功能）。由于我仅仅是做简单的中文语音识别，所以使用的是SpeechRcognition这个语音识别库。

SpeechRcognition的特点优势

满足几种主流语音 API ，灵活性高；
Google Web Speech API 支持硬编码到 SpeechRecognition 库中的默认 API 密钥，无需注册就可用；
SpeechRecognition无需构建访问麦克风和从头开始处理音频文件的脚本，只需几分钟即可自动完成音频输入、检索并运行。因此易用性很高。

怎么使用SpeechRcognition？

安装SpeechRcognition

下载地址：https://pypi.org/project/SpeechRecognition/
安装命令： pip install SpeechRcognition
不过仅仅安装这个是不够的，还需要安装对应需要的资源库，如下图：
Python使用Speech_Recognition实现普通话识别

SpeechRcognition的识别类（器）

Python使用Speech_Recognition实现普通话识别

Python开发案例
以上七个中只有 recognition_sphinx（）可与CMU Sphinx 引擎脱机工作，其他六个都需要连接互联网。另外，SpeechRecognition 附带 Google Web Speech API 的默认 API 密钥，可直接使用它。其他六个 API 都需要使用 API 密钥或用户名/密码组合进行身份验证。

下面进行中文语音识别

我在这里使用的是recognize_sphinx()语音识别器，它可以脱机工作，但是必须安装pocketsphinx库（详细安装过程见https://blog.csdn.net/zouxy09/article/details/7942784），若要进行中文识别，还需要两样东西

一、语音文件（SpeechRecognition对文件格式有要求）
二、中文声学模型、语言模型和字典文件
下面进行详细描述
SpeechRecognition支持语音文件类型

WAV: 必须是 PCM/LPCM 格式
AIFF
AIFF-C
FLAC: 必须是初始 FLAC 格式；OGG-FLAC 格式不可用
pocketsphinx需要安装的中文语言、声学模型
下载地址：http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/
Python使用Speech_Recognition实现普通话识别

安装步骤

下载cmusphinx-zh-cn-5.2.tar.gz并解压

Python使用Speech_Recognition实现普通话识别

在python安装目录下找到Lib\site-packages\speech_recognition

Python使用Speech_Recognition实现普通话识别
点击进入pocketsphinx-data文件夹，并新建文件夹zh-CN

在这个文件夹中添加进入刚刚解压的文件，需要注意：把解压出来的zh_cn.cd_cont_5000文件夹重命名为acoustic-model、zh_cn.lm.bin命名为language-model.lm.bin、zh_cn.dic中dic改为dict格式
Python使用Speech_Recognition实现普通话识别

用声音控制Windows程序
开发案例

语音识别 python api

安科网

Python使用Speech_Recognition实现普通话识别

朱建伟

SpeechRcognition的特点优势

怎么使用SpeechRcognition？

安装SpeechRcognition

SpeechRcognition的识别类（器）

下面进行中文语音识别

安装步骤

下载cmusphinx-zh-cn-5.2.tar.gz并解压

在python安装目录下找到Lib\site-packages\speech_recognition

朱建伟

相关推荐

达摩院公布语音AI新进展：移动端也能实现逼近真人的语音交互体验

腾讯云小微等语音助手持续发力，AI语音技术应用和生态融合

基于OpenSeq2Seq的NLP与语音识别混合精度训练

人工智能的三大领域及其工业应用

Kaldi 语音识别基础教程

使用Python和Keras创建简单语音识别引擎

百度语音识别新算法准确率提升超30%，鸿鹄芯片彰显AI落地新打法

使用Python进行语音识别---将音频转为文字

教你怎样用Python进行语音识别

AI 大牛 Daniel Povey 加入小米，将在小爱同学 3.0 发布首次亮相

科大讯飞董事长刘庆峰：AI在各领域应用落地需对应三大标准

云从的长征路

英文语音、方言语音识别样样拿手，百度输入法率先实现“语音自由说”

Nodejs 微信开发之语音识别

云知声 Open Day 北京站：全栈 AI 硬核技术曝光

重磅！MaxCompute助力阿里开源自研语音识别模型DFSMN，准确率高达96.04%

Win10正式版怎么开启Cortana语音识别及搜索功能?

Win10如何禁止开机自动运行语音识别

Win7系统如何通过口令操作电脑设置使用语音操作Win7系统图文教程

android语音识别之科大讯飞语音API的使用

朱建伟