爬虫——文字识别

软件设计

2017-07-25

关注关注

机器视觉

从Google的无人驾驶汽车到可以识别假钞的自动售卖机，机器视觉一直都是一个应用广泛且具有深远的影响和雄伟的愿景的领域。

这里我们将重点介绍机器视觉的一个分支：文字识别。介绍如何用一些Python库来识别和使用在线图片中的文字。

我们可以很轻松的阅读图片里的文字，但是机器阅读这些图片就会非常困难，利用这种人类用户可以正常读取但是大多数存贮器没法读取的图片，这时验证码（CAPTCHA）就出现了。验证码读取的难易程序也大不相同。

将图像翻译成文字一般被称为光学文字识别（Optical Character Recognition，OCR）。可以实现OCR的底层库并不多，目前很多库都是使用共同的几个底层OCR库，或者是在上面进行定制。

OCR库概述

在读取和处理图像、图像相差的机器学习以及创建图像等任务中，Python一直都是非常出色的语言。虽然有很多库可以进行图像处理，但是这里我们只介绍Tesseract库。

Tesseract

Tesseract是一个OCR库，目前由Google赞助。Tesseract是目前公认最优秀、最精确的开源OCR系统。除了极高的精确度，Tesseract也具有很高的灵活性。它可以通过训练识别出任何字体，也可以识别出任何Unicode字符。

安装Tesseract：Windows系统

下载可执行安装文件安装即可。

安装pytesseract

Tesseract是一个Python的命令行工具，不是通过import语句导入的库。安装之后，要用tesseract命令在Python的外面运行，但我们可以通过pip安装支持Python版本的Tesseract库：

pip install pytesseract

处理规范的文字

你要处理的大多数文字都是比较干净、格式规范的。格式霍英东的文字通常具有以下特点：

使用统一的标准字体（不包含手写体、草书或者十分“花哨”的字体），复印或者拍照但是字体清晰、没有多余的痕迹或者污点
排列整齐，没有歪歪斜斜的字
没有超出图片范围，也没有残缺不全，或紧紧贴在图片的边缘

文字的一些格式问题在图片预处理时可以进行解决。例如，可以把图片转换成灰度图，调整亮度和对比度，还可以根据需要进行裁剪和旋转，在这里不作介绍。

示例：

英文：

爬虫——文字识别

F:\DE209_F>tesseract english.jpg text
Tesseract Open Source OCR Engine v4.00.00alpha with Leptonica

F:\DE209_F>type text.txt
This is some text, written in Arial, that will be read by
Tesseract. Here are some symbols: !@#$%"&*()

识别结果的准确率还是挺高的。

通过Python代码实现

英文：

爬虫——文字识别

中文：

爬虫——文字识别

#!/usr/bin/python3
# -*- conding:utf-8 -*-
__author__ = 'mayi'

import pytesseract
from PIL import Image

# 打开图像：英文
image = Image.open('english.jpg')

# OCR识别：lang默认英文
text = pytesseract.image_to_string(image)

# 打印识别后的文本
print(text)

# 我是分割线
print("*" * 30)

# 打开图像：英文
image = Image.open('china.png')

# OCR识别：lang指定中文
text = pytesseract.image_to_string(image, lang = 'chi_sim')

# 打印识别后的文本
print(text)

运行结果

This is some text, written in Arial, that will be read by
Tesseract. Here are some symbols: !@#$%"&*()
******************************
中 华 人 民 共 和 国

tesseract 文字识别图像识别 python

安科网

爬虫——文字识别

软件设计

软件设计

相关推荐

Python怎么识别文字？正确的方法详解

如何使用Python进行OCR识别图片中的文字

[译]OpenCV OCR and text recognition with Tesseract

使用一行Python代码从图像读取文本

【docker】CentOS7.4+Python3.7+selenium+Firefox+tesseract的搭建

python-使用内置库pytesseract实现图片验证码的识别

python批量识别图片指定区域文字内容

python利用Tesseract识别验证码

Python Tesseract 图片识别-小操练

Python图像处理之图片验证码识别

node网络爬虫实例了解下？

Tesseract 进行图像识别

用splinter实现163邮箱的自动登录

只需5分钟，Python就可以建一个OCR服务器！附赠python学习资料

5分钟用Python建一个OCR服务器（文末附python教程分享）

Python爬虫验证码识别（使用Tesseract OCR识别）

每天5分钟—用Python建一个OCR服务器（附19最新python教程分享）

PHP OCR实战：用Tesseract从图像中读取文字

Python实现基于PIL和tesseract的验证码识别功能示例

Python实现识别图片内容的方法分析

软件设计