Python Tesseract 图片识别-小操练

zhongranxu

2019-06-27

小科普
光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息.
Tesseract的OCR引擎最先由HP实验室于1985年研发，2005年，交由Google对Tesseract进行改进、优化工作。

准备工作

1.PIL 、Pytesseract

from PIL import Image
from pytesseract import image_to_string

2.安装引擎 Tesseract-OCR

ok 用画图工具整张简单的图片(vm3.png)小试牛刀

Python Tesseract 图片识别-小操练

上代码

from PIL import Image
from pytesseract import image_to_string

img = Image.open("vm3.png");
text = image_to_string(img)
print(text)

别走，留步，真的只有那么多，不信看结果

Python Tesseract 图片识别-小操练

支持中文

but,Tesseract是老外开发的，默认不支持中文，需要我们加个中文语言包
将文件chi_sim.traineddata （密码：nd6p）放到安装目录：Tesseract-OCR\tessdata文件夹内，再整张图

Python Tesseract 图片识别-小操练

代码骚作修改（，lang='chi_sim'）即可

from PIL import Image
from pytesseract import image_to_string

img = Image.open("vm3.png");
text = image_to_string(img,lang='chi_sim')
print(text)

没毛病

Python Tesseract 图片识别-小操练

骚微复杂图像处理

其实，复杂图片的来不了，需要处理一下，比如这张图片：
Python Tesseract 图片识别-小操练

这样处理：

img = Image.open("vm.png");
imgry = img.convert("L")
threshold = 140
table = []
for i in range(256):
    if i < threshold:
        table.append(0)
    else:
        table.append(1)
out = imgry.point(table, '1')
out.show()

show()一下处理后的结果：

Python Tesseract 图片识别-小操练

最后，整合一下：

img = Image.open("vm.png");
imgry = img.convert("L")
threshold = 140
table = []
for i in range(256):
    if i < threshold:
        table.append(0)
    else:
        table.append(1)
out = imgry.point(table, '1')
text = image_to_string(out)
print(text)

Python Tesseract 图片识别-小操练

我就知道你会回来，如果你在运行中遇到以下问题：

tesseract is not installed or it's not in your path

一图解万愁
Python Tesseract 图片识别-小操练

Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!

添加环境变量：

变量名：TESSDATA_PREFIX
变量值：testdata的路径

如果加了还不行，重启电脑！

如果还不行，试试百度OCR的吧
如果你用来作为验证码识别。可能会用到截屏和裁剪

tesseract segmentfault python

zhongranxu

0 关注 0 粉丝 0 动态

关注关注

Python怎么识别文字？正确的方法详解

从Google的无人驾驶汽车到可以识别假钞的自动售卖机，机器视觉一直都是一个应用广泛且具有深远的影响和雄伟的愿景的领域。将图像翻译成文字一般被称为光学文字识别。可以实现OCR的底层库并不多，目前很多库都是使用共同的几个底层OCR库，或者是在上面进行定制。在

alanlonglong 2020-06-02

使用一行Python代码从图像读取文本

处理图像不是一项简单的任务。对你来说，作为一个人，很容易看着某样东西然后马上知道你在看什么。但电脑不是这样工作的。对你来说太难的任务，比如复杂的算术，或者一般意义上的数学，是计算机毫不费力就能完成的。在某种程度上，我们是天造地设的一对。虽然图像分类和涉及到

文山羊 2020-01-10

【docker】CentOS7.4+Python3.7+selenium+Firefox+tesseract的搭建

[ /]# yum install -y zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel libffi-devel gcc ma

明天你好 2020-01-08

python-使用内置库pytesseract实现图片验证码的识别

　　编辑系统变量里面 path，添加下面的安装路径：D:\Program Files\Tesseract-OCR. 　　pip install pillow #一个python的图像处理库，pytesseract依赖　　pip install pytes

CloudXli 2019-11-06

python批量识别图片指定区域文字内容

Python批量识别图片指定区域文字内容，供大家参考，具体内容如下。在此也可以用平台端的API进行更精准的识别。图片对比识别imgobj在imgsrc上的相对位置。match_result['shape'] = # 0为高，1为宽

shonmark 2019-04-30

如何使用Python进行OCR识别图片中的文字

OCR1，全称Optical character recognition，或者optical character reader，中文译名叫做光学文字识别。它是把图像文件中的手写文本，打印文本转换为机器编码文本的一种方法。OCR技术广泛用于识别打印纸张中的文

我心飞翔之家 2019-04-01

[译]OpenCV OCR and text recognition with Tesseract

几周前,我向您展示了如何执行文本检测使用OpenCV的EAST深度学习模型。下一步是把这些区域包含文本和实际识别和OCR文字使用OpenCV和Tesseract。为了执行 OpenCV OCR 和文本识别任务，我们首先需要安装 Tesseract v4，包

Jasterwisdom 2019-07-01

python利用Tesseract识别验证码

无论是是自动化登录还是爬虫，总绕不开验证码，这次就来谈谈python中光学识别验证码模块tesserocr和pytesseract。tesserocr和pytesseract是Python的一个OCR识别库，但其实是对tesseract做的一层Python

CloudXli 2019-06-30

Python图像处理之图片验证码识别

我们在网上浏览网页或注册账号时，会经常遇到验证码,如下图：。本文将具体介绍如何利用Python的图像处理模块pillow和OCR模块pytesseract来识别上述验证码。我们的图片如下：。count_max = max # 获取像素出现出多的次数。= 1

qitong 2019-06-27

node网络爬虫实例了解下？

背景交代，以下写的demo都是参照《python3网络爬虫开发实战》用node实现的，所以demo的具体思路什么的，大家可以去看书上的介绍，感兴趣的，可以去了解一波。猫眼电影抓取，没什么难点，非常简单的一个实例。)<\/i>/g[x] 6.4

Onioncy 2019-06-27

Tesseract 进行图像识别

然而，HP不久便决定放弃OCR业务，Tesseract也从此尘封。Tesseract目前已作为开源项目发布在Google Project，其最新版本3.0已经支持中文OCR，并提供了一个命令行工具。

nanqi 2019-06-25

用splinter实现163邮箱的自动登录

简述本篇文章简述了使用python的splinter实现163邮箱的自动登录,介绍了splinter自动化测试工具的使用,以及mac环境下的配置;splinter简介splinter，它是用来做自动化测试的，可以用Python程序模拟人操作浏览器，比如点击

mayflowers 2019-06-21

只需5分钟，Python就可以建一个OCR服务器！附赠python学习资料

OCR已经成为Python的一个常用工具。随着开源库Tesseract和Ocrad的出现，越来越多的程序员用OCR来编写自己的库文件和bot病毒。一个OCR的小例子，如用OCR直接从截图中提取文本，省去了重新键入的麻烦。开始之前，我们需要开发一个后端服务层

petal0 2019-05-27

5分钟用Python建一个OCR服务器（文末附python教程分享）

tmaczt 2019-02-24

Python爬虫验证码识别（使用Tesseract OCR识别）

主要思路是根据教程使用源码安装完tesseract后，然后通过安装pillow与pytesseract打通python进行在python代码中引用使用。

Lenskit 2018-11-02

每天5分钟—用Python建一个OCR服务器（附19最新python教程分享）

sdwylry 2019-04-02

PHP OCR实战：用Tesseract从图像中读取文字

它有各种各样的实际应用–从数字化印刷书籍、创建收据的电子记录，到车牌识别甚至破解基于图像的验证码。Tesseract是一个能实现OCR的开源项目。你能在*Nix系统，Mac系统和Windows系统上运行这个项目，但是只要使用一个库，我们就能在PHP项目中使

LipperZ 2016-01-15

Python实现基于PIL和tesseract的验证码识别功能示例

本文实例讲述了Python实现基于PIL和tesseract的验证码识别功能。分享给大家供大家参考，具体如下：。之前搞这个搞了一段时间，后面遇到了点小麻烦，导致识别率太低了，最多也就百分之20的样子。心灰意冷，弃了一段时间。上次在论坛看到一篇大牛的关于PI

yogoma 2018-07-11

Python实现识别图片内容的方法分析

本文实例讲述了Python实现识别图片内容的方法。分享给大家供大家参考，具体如下：。需要用到PIL模块和tesseract模块。pip install pytesseract安装识别引擎和中文语言包，点击此处本站下载。# tesseract_cmd = '

CatherineC00 2018-07-11

python使用Tesseract库识别验证

Tesseract是一个OCR库，它用来对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程，Tesseract是目前公认最优秀，识别相对精准的OCR库。set TESSDATA_PREFIX F:\Tesseract-OCR\3.安装

染血白衣 2018-03-21

安科网

Python Tesseract 图片识别-小操练

zhongranxu

ok 用画图工具整张简单的图片(vm3.png)小试牛刀

上代码

支持中文

骚微复杂图像处理

zhongranxu

相关推荐

Python怎么识别文字？正确的方法详解

使用一行Python代码从图像读取文本

【docker】CentOS7.4+Python3.7+selenium+Firefox+tesseract的搭建

python-使用内置库pytesseract实现图片验证码的识别

python批量识别图片指定区域文字内容

如何使用Python进行OCR识别图片中的文字

[译]OpenCV OCR and text recognition with Tesseract

python利用Tesseract识别验证码

Python图像处理之图片验证码识别

node网络爬虫实例了解下？

Tesseract 进行图像识别

用splinter实现163邮箱的自动登录

只需5分钟，Python就可以建一个OCR服务器！附赠python学习资料

5分钟用Python建一个OCR服务器（文末附python教程分享）

Python爬虫验证码识别（使用Tesseract OCR识别）

每天5分钟—用Python建一个OCR服务器（附19最新python教程分享）

PHP OCR实战：用Tesseract从图像中读取文字

Python实现基于PIL和tesseract的验证码识别功能示例

Python实现识别图片内容的方法分析

python使用Tesseract库识别验证

zhongranxu