爬虫、Selenium、webUI自动化使用PIL+pytesseract识别验证码以及识别错误解决方案
背景:
大家在做爬虫或web端的UI自动化时会经常遇到的就是验证码,那怎么识别这验证码也是我们目前遇到的难题。(在这里咱们先不讨论:1.点击类的验证 2.滑动类的验证 3.中文类的验证)
简单地说,计算机图形学的主要研究内容就是研究如何在计算机中表示图形、以及利用计算机进行图形的计算、处理和显示的相关原理与算法。图形通常由点、线、面、体等几何元素和灰度、色彩、线型、线宽等非几何属性组成。计算机涉及到的几何图形处理一般有 2维到n维图形处理,边界区分,面积计算,体积计算,扭曲变形校正。对于颜色则有色彩空间的计算与转换,图形上色,阴影,色差处理等等。
环境:
Python3.7
PIL
pytesseract
1、安装Python3.7
2、安装PIL库
3、安装pytesseract库
思路:
1、图片降噪
2、图片切割
3、图像文本输出
3.1 图片降噪
所谓降噪就是把不需要的信息通通去除,比如背景,干扰线,干扰像素等等,只剩下需要识别的文字,让图片变成2进制点阵最好。
对于彩色背景的验证码:每个像素都可以放在一个5维的空间里,这5个维度分别是,X,Y,R,G,B,也就是像素的坐标和颜色,在计算机图形学中,有很多种色彩空间,最常用的比如RGB,印刷用的CYMK,还有比较少见的HSL或者HSV,每种色彩空间的维度都不一样,但是可以通过公式互相转换。在RGB空间中不好区分颜色,可以把色彩空间转换为HSV或HSL。色彩空间参见:http://baike.baidu.com/view/3427413.htm
识别验证码图片如下:
代码:
1、打开图片转化成灰度
import pytesseract from PIL import Image #1、导入Image包,打开图片 im = Image.open(‘1.jpg‘) #2、把彩色图像转化为灰度图像。RBG转化到HSI彩色空间,采用L分量: imgry = im.convert(‘L‘) imgry.show()
转化成灰度效果如下:(还是比较模糊不能很好的被识别)
2、二值化处理
二值化是图像分割的一种常用方法。在二值化图象的时候把大于某个临界灰度值的像素灰度设为灰度极大值,把小于这个值的像素灰度设为灰度极小值,
从而实现二值化(一般设置为0-1)。根据阈值选取的不同,二值化的算法分为固定阈值和自适应阈值,这里选用比较简单的固定阈值。
把像素点大于阈值的设置,1,小于阈值的设置为0。生成一张查找表,再调用point()进行映射。
threshold = 140 table = [] for i in range(256): if i < threshold: table.append(0) else: table.append(1) out = imgry.point(table, ‘1‘) out.show()
二值化处理后的效果如图:
解决问题:
第一个错误:
1.FileNotFoundError:[WinError 2] 系统找不到指定的文件The system cannot find the file specified:
解决方案:
方案1:将tesseract.exe添加到系统的环境变量path中
方案2:修改pytesseract.py文件,指定tesseract.exe安装路径打开pytesseract的安装目录(这是我的目录:C:\Users\Administrator\venv\Lib\site-packages\pytesseract)找到并打开: pytesseract.py文件
注释掉原本的:
#tesseract_cmd=‘tesseract’
新增tesseract_cmd 为tesseract.exe的安装路径
tesseract_cmd= ‘D:\Program Files\Tesseract-OCR\tesseract.exe’
这样系统找不到指定的文件这个错误就可以解决了。
第二个错误:
2.解决上面的问题后运行代码又出错:
pytesseract.pytesseract.TesseractError: (1, ‘Error opening data file C:\\Program Files (x86)\\Tesseract-OCR\\tessdata/eng.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory. Failed loading language \‘eng\‘ Tesseract couldn\‘t load any languages! Could not initialize tesseract.‘)
解决方案:
在代码中添加:
pytesseract.pytesseract.tesseract_cmd = ‘c://Program Files (x86)//Tesseract-OCR//tesseract.exe‘ tessdata_dir_config = ‘--tessdata-dir "c://Program Files (x86)//Tesseract-OCR//tessdata"‘ 然后在指定的image_to_string配置下 image_to_string(image, lang = ‘eng‘, config=tessdata_dir_config)
识别成功