python利用Tesseract识别验证码

CloudXli

2019-06-30

无论是是自动化登录还是爬虫，总绕不开验证码，这次就来谈谈python中光学识别验证码模块tesserocr和pytesseract。tesserocr和pytesseract是Python的一个OCR识别库，但其实是对tesseract做的一层Python API封装，pytesseract是Google的Tesseract-OCR引擎包装器；所以它们的核心是tesseract,因此在安装tesserocr之前，我们需要先安装tesseract。

下载安装

下载地址：https://digi.bib.uni-mannheim...

下载完成后，双击安装，可以勾选Additional language data(download)选项来安装OCR识别支持的语言包，但下载语言包实在是慢，我们可以直接从https://github.com/tesseract-... 下载zip的语言包压缩文件，解压后将tessdata-master中的文件复制到tesseract的安装目录C:\Program Files (x86)\Tesseract-OCR\tessdata目录下，最后我们配置下环境变量，我们将C:\Program Files (x86)\Tesseract-OCR添加到环境变量中。进入命令提示符，输入tesseract，显示下图结果，说明配置完成

python利用Tesseract识别验证码

查看安装了的语言包：tesseract --list-langs

python利用Tesseract识别验证码

显示我一共安装了167种语言包，里边包含英文或者其他字符。

测试

实验用的二维码
python利用Tesseract识别验证码

基本使用语法
tesseract image.png result （tesseract 图片名称生成文件名称）

结果
python利用Tesseract识别验证码

由结果来看，识别出来了P、2和X，但是把C识别成了G，识别度还是比较高，接下来看在python中的使用

python引入tesseract

在python下使用pip命令即可完成下载安装 pip install pytesseract

识别验证码脚本

import pytesseract
from PIL import Image

im=Image.open('pin.png')
print(pytesseract.image_to_string(im))

结果
python利用Tesseract识别验证码

这样识别的结果同样跟上文一样，个别字符识别的不是很准确

图像处理

现在网站上的二维码设计的通常很难复杂，如果直接识别的话很难识别出来，下面这段代码是进行灰度处理和二值化

import pytesseract
from PIL import Image

im=Image.open('5.jpg')
#进行置灰处理
im=im.convert('L')
#这个是二值化阈值
threshold=150
table=[]
for i in range(256):
    if i<threshold:
        table.append(0)
    else:
        table.append(1)
#通过表格转换成二进制图片，1的作用是白色，0就是黑色
im=im.point(table,"1")
im.show()
print(pytesseract.image_to_string(im))

原图
python利用Tesseract识别验证码

置灰和二值化后
python利用Tesseract识别验证码

想要提高识别率只能下载训练好的语言包，如上述所说，或者用深度学习的方法训练机器
原文地址：https://nolon.xyz/archives/77/

tesseract python 验证码识别

安科网

python利用Tesseract识别验证码

CloudXli

下载安装

测试

python引入tesseract

图像处理

CloudXli

相关推荐

python-使用内置库pytesseract实现图片验证码的识别

Python图像处理之图片验证码识别

Python爬虫验证码识别（使用Tesseract OCR识别）

Python实现基于PIL和tesseract的验证码识别功能示例

python selenium UI自动化解决验证码的4种方法

python下调用pytesseract识别某网站验证码的实现方法

python利用Tesseract识别验证码的方法示例

Python怎么识别文字？正确的方法详解

使用一行Python代码从图像读取文本

【docker】CentOS7.4+Python3.7+selenium+Firefox+tesseract的搭建

python批量识别图片指定区域文字内容

如何使用Python进行OCR识别图片中的文字

[译]OpenCV OCR and text recognition with Tesseract

Python Tesseract 图片识别-小操练

node网络爬虫实例了解下？

Tesseract 进行图像识别

用splinter实现163邮箱的自动登录

只需5分钟，Python就可以建一个OCR服务器！附赠python学习资料

5分钟用Python建一个OCR服务器（文末附python教程分享）

每天5分钟—用Python建一个OCR服务器（附19最新python教程分享）

CloudXli