Python爬虫验证码识别（使用Tesseract OCR识别）

Lenskit

2018-11-02

主要思路是根据教程使用源码安装完tesseract后，然后通过安装pillow与pytesseract打通python进行在python代码中引用使用。

Python爬虫验证码识别（使用Tesseract OCR识别）

关注后私信小编 PDF领取十套电子文档书籍

I. 依赖安装

brewinstallautomake autoconf libtool
brewinstallpkgconfig
brewinstallicu4c
brewinstallleptonica
brewinstallgcc

II. Tesseract编译安装

git clone https://github.com/tesseract-ocr/tesseract/
cd tesseract
./autogen.sh
./configure CC=gcc-8 CXX=g++-8 CPPFLAGS=-I/usr/local/opt/icu4c/include LDFLAGS=-L/usr/local/opt/icu4c/lib
make -j
sudo make install # if desired

III. 语言配置

需要识别语言配置(参照教程 ):

前面安装完后，你会发现在 /usr/local/share/tessdata 会有默认的data，将 export TESSDATA_PREFIX='/usr/local/share/tessdata' 配置到系统环境中
在这里下载对应版本的语言包
将下载的语言包直接放到这个 /usr/local/share/tessdata

比如我这边是4.0版本，我需要的是对英文的ocr识别(识别英文的验证码)，我就直接下载4.00版本的 eng.traineddata :

Python爬虫验证码识别（使用Tesseract OCR识别）

然后再将下载下来的 eng.traineddata 放到到 /usr/local/share/tessdata 中即可:

Python爬虫验证码识别（使用Tesseract OCR识别）

IV. 打通Python

这边打通python直接通过 pytesseract ，十分方便。

先安装pillow:

pip install pillow

再安装pytesseract:

pip install pytesseract

安装完成后就可以通过其在python中使用了，如:

try:
 from PIL import Image
except ImportError:
 import Image
import pytesseract
# Simple image to string
print(pytesseract.image_to_string(Image.open('test.png')))
# French text image to string
print(pytesseract.image_to_string(Image.open('test-european.jpg'), lang='fra'))

更多使用方法参照官方的文档。

想要学习Python。关注小编头条号，私信【学习资料】，即可免费领取一整套系统的板Python学习教程！

tesseract python ocr 验证码识别 python爬虫

Lenskit

0 关注 0 粉丝 0 动态

相关推荐

如何使用Python进行OCR识别图片中的文字

OCR1，全称Optical character recognition，或者optical character reader，中文译名叫做光学文字识别。它是把图像文件中的手写文本，打印文本转换为机器编码文本的一种方法。OCR技术广泛用于识别打印纸张中的文

我心飞翔之家 2019-04-01

[译]OpenCV OCR and text recognition with Tesseract

几周前,我向您展示了如何执行文本检测使用OpenCV的EAST深度学习模型。下一步是把这些区域包含文本和实际识别和OCR文字使用OpenCV和Tesseract。为了执行 OpenCV OCR 和文本识别任务，我们首先需要安装 Tesseract v4，包

Jasterwisdom 2019-07-01

只需5分钟，Python就可以建一个OCR服务器！附赠python学习资料

OCR已经成为Python的一个常用工具。随着开源库Tesseract和Ocrad的出现，越来越多的程序员用OCR来编写自己的库文件和bot病毒。一个OCR的小例子，如用OCR直接从截图中提取文本，省去了重新键入的麻烦。开始之前，我们需要开发一个后端服务层

petal0 2019-05-27

5分钟用Python建一个OCR服务器（文末附python教程分享）

OCR已经成为Python的一个常用工具。随着开源库Tesseract和Ocrad的出现，越来越多的程序员用OCR来编写自己的库文件和bot病毒。一个OCR的小例子，如用OCR直接从截图中提取文本，省去了重新键入的麻烦。开始之前，我们需要开发一个后端服务层

tmaczt 2019-02-24

每天5分钟—用Python建一个OCR服务器（附19最新python教程分享）

OCR已经成为Python的一个常用工具。随着开源库Tesseract和Ocrad的出现，越来越多的程序员用OCR来编写自己的库文件和bot病毒。一个OCR的小例子，如用OCR直接从截图中提取文本，省去了重新键入的麻烦。开始之前，我们需要开发一个后端服务层

sdwylry 2019-04-02

PHP OCR实战：用Tesseract从图像中读取文字

它有各种各样的实际应用–从数字化印刷书籍、创建收据的电子记录，到车牌识别甚至破解基于图像的验证码。Tesseract是一个能实现OCR的开源项目。你能在*Nix系统，Mac系统和Windows系统上运行这个项目，但是只要使用一个库，我们就能在PHP项目中使

LipperZ 2016-01-15

基于Python实现对PDF文件的OCR识别

最近在做一个项目的时候，需要将PDF文件作为输入，从中输出文本，然后将文本存入数据库中。为此，我找寻了很久的解决方案，最终才确定使用tesseract。所以不要浪费时间了，我们开始吧。在不同的系统中安装tesseract非常容易。为了简便，我们以Ubunt

solocoder 2019-04-25

python-使用内置库pytesseract实现图片验证码的识别

　　编辑系统变量里面 path，添加下面的安装路径：D:\Program Files\Tesseract-OCR. 　　pip install pillow #一个python的图像处理库，pytesseract依赖　　pip install pytes

CloudXli 2019-11-06

python利用Tesseract识别验证码

无论是是自动化登录还是爬虫，总绕不开验证码，这次就来谈谈python中光学识别验证码模块tesserocr和pytesseract。tesserocr和pytesseract是Python的一个OCR识别库，但其实是对tesseract做的一层Python

CloudXli 2019-06-30

Python图像处理之图片验证码识别

我们在网上浏览网页或注册账号时，会经常遇到验证码,如下图：。本文将具体介绍如何利用Python的图像处理模块pillow和OCR模块pytesseract来识别上述验证码。我们的图片如下：。count_max = max # 获取像素出现出多的次数。= 1

qitong 2019-06-27

Python实现基于PIL和tesseract的验证码识别功能示例

本文实例讲述了Python实现基于PIL和tesseract的验证码识别功能。分享给大家供大家参考，具体如下：。之前搞这个搞了一段时间，后面遇到了点小麻烦，导致识别率太低了，最多也就百分之20的样子。心灰意冷，弃了一段时间。上次在论坛看到一篇大牛的关于PI

yogoma 2018-07-11

python selenium UI自动化解决验证码的4种方法

windows7+ firefox50+ geckodriver # firefox浏览器驱动 python3 selenium3selenium UI自动化解决验证码的4种方法：去掉验证码、设置万能码、验证码识别技术-tesseract、添加co

Leonardwang 2018-01-05

python下调用pytesseract识别某网站验证码的实现方法

a、Python-tesseract是一个基于google's Tesseract-OCR的独立封装包；b、Python-tesseract功能是识别图片文件中文字，并作为返回参数返回识别结果；c、Python-tesseract默认支持tiff、bmp格

LHpython 2019-04-23

python利用Tesseract识别验证码的方法示例

无论是是自动化登录还是爬虫，总绕不开验证码，这次就来谈谈python中光学识别验证码模块tesserocr和pytesseract。tesserocr和pytesseract是Python的一个OCR识别库，但其实是对tesseract做的一层Python

LHpython 2019-01-21

Python怎么识别文字？正确的方法详解

从Google的无人驾驶汽车到可以识别假钞的自动售卖机，机器视觉一直都是一个应用广泛且具有深远的影响和雄伟的愿景的领域。将图像翻译成文字一般被称为光学文字识别。可以实现OCR的底层库并不多，目前很多库都是使用共同的几个底层OCR库，或者是在上面进行定制。在

alanlonglong 2020-06-02

使用一行Python代码从图像读取文本

处理图像不是一项简单的任务。对你来说，作为一个人，很容易看着某样东西然后马上知道你在看什么。但电脑不是这样工作的。对你来说太难的任务，比如复杂的算术，或者一般意义上的数学，是计算机毫不费力就能完成的。在某种程度上，我们是天造地设的一对。虽然图像分类和涉及到

文山羊 2020-01-10

【docker】CentOS7.4+Python3.7+selenium+Firefox+tesseract的搭建

[ /]# yum install -y zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel libffi-devel gcc ma

明天你好 2020-01-08

python批量识别图片指定区域文字内容

Python批量识别图片指定区域文字内容，供大家参考，具体内容如下。在此也可以用平台端的API进行更精准的识别。图片对比识别imgobj在imgsrc上的相对位置。match_result['shape'] = # 0为高，1为宽

shonmark 2019-04-30

Python Tesseract 图片识别-小操练

小科普光学字符识别是指对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息.Tesseract的OCR引擎最先由HP实验室于1985年研发，2005年，交由Google对Tesseract进行改进、优化工作。from pytesseract

zhongranxu 2019-06-27

node网络爬虫实例了解下？

背景交代，以下写的demo都是参照《python3网络爬虫开发实战》用node实现的，所以demo的具体思路什么的，大家可以去看书上的介绍，感兴趣的，可以去了解一波。猫眼电影抓取，没什么难点，非常简单的一个实例。)<\/i>/g[x] 6.4

Onioncy 2019-06-27

Lenskit

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号