Duang!用Python来实现唱歌、跳舞、写字、画画？无所不能的python

否定的否定式

2019-03-13

关注关注

Python作为目前万能的语言，应用的领域真的非常多，下面我们来看看，Python是如何用于唱歌、跳舞、写字、画图的：

1.介绍一个异常简单的使用Python语言和开源库OpenCV的人脸识别方法，供此开启人脸识别之旅。

Duang!用Python来实现唱歌、跳舞、写字、画画？无所不能的python

让我们再对Abba图片进行一次测试。 $ python face_detect.py abba.png haar级联_frontalface_default.xml

Duang!用Python来实现唱歌、跳舞、写字、画画？无所不能的python

这个工作正常，其他图片检测结果如何？

Duang!用Python来实现唱歌、跳舞、写字、画画？无所不能的python

那个…不是人脸。让我们再试一次。我修改了参数设置，发现将scaleFactor设置成1.2可以将识别错识的人脸过滤掉。

发生了什么？好吧，第一张相片使用了一个高相素相机在较近的距离进行拍摄。第二张相片貌似是使用的手机在较远距离进行的拍摄。这就是参数scaleFactor需要修改的原因。就像我说过的，你需要根据不同测试案例对算法进行不同的参数设置从而避免误识别的发生。

需要注意的是，由于采用了基于机械学习的算法，检测结果永远无法达到100%精确。大多数案例中你都能得到较好的结果，但偶尔算法也会检测到错误的对象，就像检测到错误的人脸一样。

OpenCV是计算机视觉领域最受欢迎的库。OpenCV最早是使用C/C++语言进行编写的，现已支持Python语言捆绑使用。

OpenCV使用机械学习算法对图像中的人脸进行搜索。由于有着与人脸一样复杂的原因，不存在一项简便的测试可以告知人们是否能够识别出人脸。相反，算法需要对成千上万细小的模式和特征进行匹配。面部识别算法被分解成成千上万很小的、易理解的任务，每一个任务较易实现。这些任务被称为分类器。

像人脸一样，你可能有6，000个基于更多的分类器在进行人脸检测过程中，每一个分类器都需要进行匹配（当然要在一定的误差范围内）。但这其中就有问题了。在人脸识别过程中，算法从图片的左上角开始向右下角按小块逐步进行匹配，对每一个小块的识别过程中，算法都会持续的问：“这是人脸么？这是人脸么？这是人脸么？”由于在每个小块有着6000甚至更多的匹配项需要进行匹配，你可能会有无数的计算要执行，这些计算将引发你的电脑发生死机。

2.机器自己学唱歌一首

现在我们可以开始了解这样一个系统是如何工作了。一种音频指纹识别系统做到两点：

1.通过指纹标记学习一首新歌2.通过在数据库中搜索已经学习过的歌曲来识别一首未知歌曲

为此，我们将用到以上的所有知识和MySQL数据库功能。我们的数据库将包含两个表：

1.指纹记录2.歌曲记录

音频指纹记录表

音频指纹记录表有如下字段：

Duang!用Python来实现唱歌、跳舞、写字、画画？无所不能的python

首先，注意到我们不仅有一个hash和song_id 字段，还有一个offset 字段。这对应于哈希来源的谱图上的时间偏移量。这会在后面我们在通过匹配哈希值来过滤时用到。只有哈希值与真实信息一致才是我们真正要识别出的（更多看下面音频指纹比对）。

其次，我们有很好的理由把hash 设置成INDEX。因为所有的查询都将需要做匹配操作，所以这里我们需要一个真正的快速检索。

然后，UNIQUE只是确保我们没有重复。无需浪费空间或者因为重复的音频影响匹配查询速度。

如果你在绞尽脑汁地想我为什么把 hash 设置成 binary(10)，原因是，哈希值通常太长，设置少点有得于减少存储。下面是每首歌的音频指纹数图：

Duang!用Python来实现唱歌、跳舞、写字、画画？无所不能的python

最前面的是Justin Timberlake 的"Mirrors" ，音频指纹数超过240K，其次Robin Thicke 的"Blurred Lines" 也有180k。底部是acapella演艺的”Cups”, 是一首乐器很少，仅有人声和和声的歌曲。做个对比，听听 "Mirrors"。你会发现明显的乐器声组成的“噪音墙”并且填充的频谱数从高到低分类，即频谱丰富与否与峰的频率高低是一致的。这个数据集里每首歌平均超过100k个音频指纹数。

有这么多的指纹，我们需要从哈希值水平上减少不必要的硬盘存储。对于指纹哈希，我们将开始使用SHA-1哈希，然后减少一半大小（只有前20个字符）。这使我们每个哈希值减少了一半的字节数：

Duang!用Python来实现唱歌、跳舞、写字、画画？无所不能的python