python音频处理用到的操作的示例代码

Eric0Lv

2017-10-27

关注关注

前言

本文主要记录python下音频常用的操作，以.wav格式文件为例。其实网上有很多现成的音频工具包，如果仅仅调用，工具包是更方便的。

更多pyton下的操作可以参考：用python做科学计算

1、批量读取.wav文件名：

这里用到字符串路径：

1.通常意义字符串(str)
2.原始字符串，以大写R 或小写r开始，r''，不对特殊字符进行转义
3.Unicode字符串，u'' basestring子类

如：

path = './file/n'

path = r'.\file\n'

path = '.\\file\\n'

三者等价，右划线\为转义字符，引号前加r表示原始字符串，而不转义（r:raw string）.

常用获取帮助的方式：

>>> help(str)
>>> dir(str)
>>> help(str.replace)

2、读取.wav文件

wave.open 用法：

wave.open(file,mode)

mode可以是：

‘rb'，读取文件；

‘wb'，写入文件;

不支持同时读/写操作。

Wave_read.getparams用法：

f = wave.open(file,'rb')

params = f.getparams()

nchannels, sampwidth, framerate, nframes = params[:4]

其中最后一行为常用的音频参数：

nchannels:声道数
sampwidth:量化位数（byte）
framerate:采样频率
nframes:采样点数

单通道

对应code:

import wave

import matplotlib.pyplot as plt

import numpy as np

import os

 

filepath = "./data/" #添加路径

filename= os.listdir(filepath) #得到文件夹下的所有文件名称 

f = wave.open(filepath+filename[1],'rb')

params = f.getparams()

nchannels, sampwidth, framerate, nframes = params[:4]

strData = f.readframes(nframes)#读取音频，字符串格式

waveData = np.fromstring(strData,dtype=np.int16)#将字符串转化为int

waveData = waveData*1.0/(max(abs(waveData)))#wave幅值归一化

# plot the wave

time = np.arange(0,nframes)*(1.0 / framerate)

plt.plot(time,waveData)

plt.xlabel("Time(s)")

plt.ylabel("Amplitude")

plt.title("Single channel wavedata")

plt.grid('on')#标尺，on：有，off:无。

结果图：

python音频处理用到的操作的示例代码

多通道

这里通道数为3，主要借助np.reshape一下，其他同单通道处理完全一致，对应code:

# -*- coding: utf-8 -*-

"""

Created on Wed May 3 12:15:34 2017

 

@author: Nobleding

"""

 

import wave

import matplotlib.pyplot as plt

import numpy as np

import os

 

filepath = "./data/" #添加路径

filename= os.listdir(filepath) #得到文件夹下的所有文件名称 

f = wave.open(filepath+filename[0],'rb')

params = f.getparams()

nchannels, sampwidth, framerate, nframes = params[:4]

strData = f.readframes(nframes)#读取音频，字符串格式

waveData = np.fromstring(strData,dtype=np.int16)#将字符串转化为int

waveData = waveData*1.0/(max(abs(waveData)))#wave幅值归一化

waveData = np.reshape(waveData,[nframes,nchannels])

f.close()

# plot the wave

time = np.arange(0,nframes)*(1.0 / framerate)

plt.figure()

plt.subplot(5,1,1)

plt.plot(time,waveData[:,0])

plt.xlabel("Time(s)")

plt.ylabel("Amplitude")

plt.title("Ch-1 wavedata")

plt.grid('on')#标尺，on：有，off:无。

plt.subplot(5,1,3)

plt.plot(time,waveData[:,1])

plt.xlabel("Time(s)")

plt.ylabel("Amplitude")

plt.title("Ch-2 wavedata")

plt.grid('on')#标尺，on：有，off:无。

plt.subplot(5,1,5)

plt.plot(time,waveData[:,2])

plt.xlabel("Time(s)")

plt.ylabel("Amplitude")

plt.title("Ch-3 wavedata")

plt.grid('on')#标尺，on：有，off:无。

plt.show()

效果图：

python音频处理用到的操作的示例代码

单通道为多通道的特例，所以多通道的读取方式对任意通道wav文件都适用。需要注意的是，waveData在reshape之后，与之前的数据结构是不同的。即waveData[0]等价于reshape之前的waveData，但不影响绘图分析，只是在分析频谱时才有必要考虑这一点。

3、wav写入

涉及到的主要指令有三个：

参数设置：

nchannels = 1 #单通道为例

sampwidth = 2

fs = 8000

data_size = len(outData)

framerate = int(fs)

nframes = data_size

comptype = "NONE"

compname = "not compressed"

outwave.setparams((nchannels, sampwidth, framerate, nframes, comptype, compname))

待写入wav文件的存储路径及文件名：

outfile = filepath+'out1.wav'

outwave = wave.open(outfile, 'wb')#定义存储路径以及文件名

数据的写入：

for v in outData:
outwave.writeframes(struct.pack('h', int(v * 64000 / 2)))#outData:16位，-32767~32767，注意不要溢出

单通道数据写入：

import wave

#import matplotlib.pyplot as plt

import numpy as np

import os

import struct

 

#wav文件读取

filepath = "./data/" #添加路径

filename= os.listdir(filepath) #得到文件夹下的所有文件名称 

f = wave.open(filepath+filename[1],'rb')

params = f.getparams()

nchannels, sampwidth, framerate, nframes = params[:4]

strData = f.readframes(nframes)#读取音频，字符串格式

waveData = np.fromstring(strData,dtype=np.int16)#将字符串转化为int

waveData = waveData*1.0/(max(abs(waveData)))#wave幅值归一化

f.close()

#wav文件写入

outData = waveData#待写入wav的数据，这里仍然取waveData数据

outfile = filepath+'out1.wav'

outwave = wave.open(outfile, 'wb')#定义存储路径以及文件名

nchannels = 1

sampwidth = 2

fs = 8000

data_size = len(outData)

framerate = int(fs)

nframes = data_size

comptype = "NONE"

compname = "not compressed"

outwave.setparams((nchannels, sampwidth, framerate, nframes,

  comptype, compname))

 

for v in outData:

    outwave.writeframes(struct.pack('h', int(v * 64000 / 2)))#outData:16位，-32767~32767，注意不要溢出

outwave.close()

多通道数据写入：

多通道的写入与多通道读取类似，多通道读取是将一维数据reshape为二维，多通道的写入是将二维的数据reshape为一维，其实就是一个逆向的过程：

import wave

#import matplotlib.pyplot as plt

import numpy as np

import os

import struct

 

#wav文件读取

filepath = "./data/" #添加路径

filename= os.listdir(filepath) #得到文件夹下的所有文件名称 

f = wave.open(filepath+filename[0],'rb')

params = f.getparams()

nchannels, sampwidth, framerate, nframes = params[:4]

strData = f.readframes(nframes)#读取音频，字符串格式

waveData = np.fromstring(strData,dtype=np.int16)#将字符串转化为int

waveData = waveData*1.0/(max(abs(waveData)))#wave幅值归一化

waveData = np.reshape(waveData,[nframes,nchannels])

f.close()

#wav文件写入

outData = waveData#待写入wav的数据，这里仍然取waveData数据

outData = np.reshape(outData,[nframes*nchannels,1])

outfile = filepath+'out2.wav'

outwave = wave.open(outfile, 'wb')#定义存储路径以及文件名

nchannels = 3

sampwidth = 2

fs = 8000

data_size = len(outData)

framerate = int(fs)

nframes = data_size

comptype = "NONE"

compname = "not compressed"

outwave.setparams((nchannels, sampwidth, framerate, nframes,

  comptype, compname))

 

for v in outData:

    outwave.writeframes(struct.pack('h', int(v * 64000 / 2)))#outData:16位，-32767~32767，注意不要溢出

outwave.close()

这里用到struct.pack(.)二进制的转化：

python音频处理用到的操作的示例代码

例如：

python音频处理用到的操作的示例代码

4、音频播放

wav文件的播放需要用到pyaudio，安装包点击这里。我将它放在\Scripts文件夹下，cmd并切换到对应目录

pip install PyAudio-0.2.9-cp35-none-win_amd64.whl

pyaudio安装完成。

Pyaudio主要用法：

主要列出pyaudio对象的open()方法的参数：

rate:采样率
channels:声道数
format:采样值的量化格式，值可以为paFloat32、paInt32、paInt24、paInt16、paInt8等。下面的例子中，使用get_from_width()将值为2的sampwidth转换为paInt16.
input:输入流标志，Ture表示开始输入流
output:输出流标志

给出对应code:

import wave

import pyaudio 

import os

 

#wav文件读取

filepath = "./data/" #添加路径

filename= os.listdir(filepath) #得到文件夹下的所有文件名称 

f = wave.open(filepath+filename[0],'rb')

params = f.getparams()

nchannels, sampwidth, framerate, nframes = params[:4]

#instantiate PyAudio 

p = pyaudio.PyAudio() 

#define stream chunk  

chunk = 1024 

#打开声音输出流

stream = p.open(format = p.get_format_from_width(sampwidth), 

        channels = nchannels, 

        rate = framerate, 

        output = True) 

 

#写声音输出流到声卡进行播放

data = f.readframes(chunk) 

i=1

while True: 

  data = f.readframes(chunk)

  if data == b'': break

  stream.write(data)  

f.close()

#stop stream 

stream.stop_stream() 

stream.close() 

#close PyAudio 

p.terminate()

因为是python3.5，判断语句if data == b'': break 的b不能缺少。

5、信号加窗

通常对信号截断、分帧需要加窗，因为截断都有频域能量泄露，而窗函数可以减少截断带来的影响。

窗函数在scipy.signal信号处理工具箱中，如hamming窗：

import scipy.signal as signal

pl.plot(signal.hanning(512))

利用上面的函数，绘制hanning窗：

import pylab as pl

import scipy.signal as signal

pl.figure(figsize=(6,2))

pl.plot(signal.hanning(512))

python音频处理用到的操作的示例代码

6、信号分帧

信号分帧的理论依据，其中x是语音信号，w是窗函数：

python音频处理用到的操作的示例代码

加窗截断类似采样，为了保证相邻帧不至于差别过大，通常帧与帧之间有帧移，其实就是插值平滑的作用。

给出示意图：

python音频处理用到的操作的示例代码

这里主要用到numpy工具包，涉及的指令有：

np.repeat：主要是直接重复
np.tile：主要是周期性重复

对比一下：

向量情况： python音频处理用到的操作的示例代码

矩阵情况：

对于数据： python音频处理用到的操作的示例代码

repeat操作： python音频处理用到的操作的示例代码

tile操作： python音频处理用到的操作的示例代码

对应结果：

python音频处理用到的操作的示例代码

对应分帧的代码实现：

这是没有加窗的示例：

import numpy as np

import wave

import os

#import math

 

def enframe(signal, nw, inc):

  '''将音频信号转化为帧。

  参数含义：

  signal:原始音频型号

  nw:每一帧的长度(这里指采样点的长度，即采样频率乘以时间间隔)

  inc:相邻帧的间隔（同上定义）

  '''

  signal_length=len(signal) #信号总长度

  if signal_length<=nw: #若信号长度小于一个帧的长度，则帧数定义为1

    nf=1

  else: #否则，计算帧的总长度

    nf=int(np.ceil((1.0*signal_length-nw+inc)/inc))

  pad_length=int((nf-1)*inc+nw) #所有帧加起来总的铺平后的长度

  zeros=np.zeros((pad_length-signal_length,)) #不够的长度使用0填补，类似于FFT中的扩充数组操作

  pad_signal=np.concatenate((signal,zeros)) #填补后的信号记为pad_signal

  indices=np.tile(np.arange(0,nw),(nf,1))+np.tile(np.arange(0,nf*inc,inc),(nw,1)).T #相当于对所有帧的时间点进行抽取，得到nf*nw长度的矩阵

  indices=np.array(indices,dtype=np.int32) #将indices转化为矩阵

  frames=pad_signal[indices] #得到帧信号

#  win=np.tile(winfunc(nw),(nf,1)) #window窗函数，这里默认取1

#  return frames*win  #返回帧信号矩阵

  return frames

def wavread(filename):

  f = wave.open(filename,'rb')

  params = f.getparams()

  nchannels, sampwidth, framerate, nframes = params[:4]

  strData = f.readframes(nframes)#读取音频，字符串格式

  waveData = np.fromstring(strData,dtype=np.int16)#将字符串转化为int

  f.close()

  waveData = waveData*1.0/(max(abs(waveData)))#wave幅值归一化

  waveData = np.reshape(waveData,[nframes,nchannels]).T

  return waveData

 

filepath = "./data/" #添加路径

dirname= os.listdir(filepath) #得到文件夹下的所有文件名称 

filename = filepath+dirname[0]

data = wavread(filename)

nw = 512

inc = 128

Frame = enframe(data[0], nw, inc)

如果需要加窗，只需要将函数修改为：

def enframe(signal, nw, inc, winfunc):

  '''将音频信号转化为帧。

  参数含义：

  signal:原始音频型号

  nw:每一帧的长度(这里指采样点的长度，即采样频率乘以时间间隔)

  inc:相邻帧的间隔（同上定义）

  '''

  signal_length=len(signal) #信号总长度

  if signal_length<=nw: #若信号长度小于一个帧的长度，则帧数定义为1

    nf=1

  else: #否则，计算帧的总长度

    nf=int(np.ceil((1.0*signal_length-nw+inc)/inc))

  pad_length=int((nf-1)*inc+nw) #所有帧加起来总的铺平后的长度

  zeros=np.zeros((pad_length-signal_length,)) #不够的长度使用0填补，类似于FFT中的扩充数组操作

  pad_signal=np.concatenate((signal,zeros)) #填补后的信号记为pad_signal

  indices=np.tile(np.arange(0,nw),(nf,1))+np.tile(np.arange(0,nf*inc,inc),(nw,1)).T #相当于对所有帧的时间点进行抽取，得到nf*nw长度的矩阵

  indices=np.array(indices,dtype=np.int32) #将indices转化为矩阵

  frames=pad_signal[indices] #得到帧信号

  win=np.tile(winfunc,(nf,1)) #window窗函数，这里默认取1

  return frames*win  #返回帧信号矩阵

其中窗函数，以hamming窗为例：

winfunc = signal.hamming(nw)

Frame = enframe(data[0], nw, inc, winfunc)

调用即可。

7、语谱图

其实得到了分帧信号，频域变换取幅值，就可以得到语谱图，如果仅仅是观察，matplotlib.pyplot有specgram指令：

import wave

import matplotlib.pyplot as plt

import numpy as np

import os

 

filepath = "./data/" #添加路径

filename= os.listdir(filepath) #得到文件夹下的所有文件名称 

f = wave.open(filepath+filename[0],'rb')

params = f.getparams()

nchannels, sampwidth, framerate, nframes = params[:4]

strData = f.readframes(nframes)#读取音频，字符串格式

waveData = np.fromstring(strData,dtype=np.int16)#将字符串转化为int

waveData = waveData*1.0/(max(abs(waveData)))#wave幅值归一化

waveData = np.reshape(waveData,[nframes,nchannels]).T

f.close()

# plot the wave

plt.specgram(waveData[0],Fs = framerate, scale_by_freq = True, sides = 'default')

plt.ylabel('Frequency(Hz)')

plt.xlabel('Time(s)')

plt.show()

python音频处理用到的操作的示例代码