基于Python实现对PDF文件的OCR识别

solocoder

2019-04-25

关注关注

最近在做一个项目的时候，需要将PDF文件作为输入，从中输出文本，然后将文本存入数据库中。为此，我找寻了很久的解决方案，最终才确定使用tesseract。所以不要浪费时间了，我们开始吧。

1.安装tesseract

在不同的系统中安装tesseract非常容易。为了简便，我们以Ubuntu为例。

在Ubuntu中你仅仅需要运行以下命令:

基于Python实现对PDF文件的OCR识别

这将会安装支持3种不同语言的tesseract。

2.安装PyOCR

现在我们还需要安装tesseract的Python接口。幸运的是，有许多出色的Python接口。

我们采用最新的一个：

基于Python实现对PDF文件的OCR识别

3.安装Wand和PIL

在我们开始之前，还需要另外安装两个依赖包。一个是Wand。它是Imagemagick的Python接口。

我们需要使用它来将PDF文件转换成图像：

基于Python实现对PDF文件的OCR识别

我们也需要PIL因为PyOCR需要使用它。你可以查看官方文档以确定如何将PIL安装到你的操作系统中。

4.热身

让我们开始我们的脚本吧。首先，我们需要导入一些重要的库：

基于Python实现对PDF文件的OCR识别

注意：我将从PIL导入的Image模块改名为PI了，因为如果不这样做的话，它将和wand.image模块发生重名冲突。

5.开始

现在我们需要获得OCR库（在本例中，即tesseract）的句柄以及我们在PyOCR中将使用的语言：

基于Python实现对PDF文件的OCR识别

我们使用tool.get_available_languages里的第二种语言，因为之前我曾尝试过，第二种语言就是英语。

接着，我们需要建立两个列表，用于存储我们的图像和最终的文本。

基于Python实现对PDF文件的OCR识别

下一步，我们需要采用wand将一个PDF文件转成jpeg文件。让我们试一试吧！

基于Python实现对PDF文件的OCR识别

注意：将PDF_FILE_NAME替换成当前路径下的一个可用的PDF文件名。

wand已经将PDF中所有的独立页面都转成了独立的二进制图像对象。我们可以遍历这个大对象，并把它们加入到req_image序列中去。

基于Python实现对PDF文件的OCR识别

现在，我们仅仅需要在图像对象上运行OCR即可，非常简单：

基于Python实现对PDF文件的OCR识别

现在，所有识别出的文本已经加到了final_text序列中了。你可以任意地使用它。以上就是利用Python对PDF文件做OCR识别的全部内容，希望这个教程能够帮助到你们！

英文原文：https://pythontips.com/2016/02/25/ocr-on-pdf-files-using-python/

译者：LuCima

ocr python pdf tesseract text-align

solocoder

0 关注 0 粉丝 0 动态

关注关注

如何使用Python进行OCR识别图片中的文字

OCR1，全称Optical character recognition，或者optical character reader，中文译名叫做光学文字识别。它是把图像文件中的手写文本，打印文本转换为机器编码文本的一种方法。OCR技术广泛用于识别打印纸张中的文

我心飞翔之家 2019-04-01

[译]OpenCV OCR and text recognition with Tesseract

几周前,我向您展示了如何执行文本检测使用OpenCV的EAST深度学习模型。下一步是把这些区域包含文本和实际识别和OCR文字使用OpenCV和Tesseract。为了执行 OpenCV OCR 和文本识别任务，我们首先需要安装 Tesseract v4，包

Jasterwisdom 2019-07-01

只需5分钟，Python就可以建一个OCR服务器！附赠python学习资料

OCR已经成为Python的一个常用工具。随着开源库Tesseract和Ocrad的出现，越来越多的程序员用OCR来编写自己的库文件和bot病毒。一个OCR的小例子，如用OCR直接从截图中提取文本，省去了重新键入的麻烦。开始之前，我们需要开发一个后端服务层

petal0 2019-05-27

5分钟用Python建一个OCR服务器（文末附python教程分享）

tmaczt 2019-02-24

Python爬虫验证码识别（使用Tesseract OCR识别）

主要思路是根据教程使用源码安装完tesseract后，然后通过安装pillow与pytesseract打通python进行在python代码中引用使用。

Lenskit 2018-11-02

每天5分钟—用Python建一个OCR服务器（附19最新python教程分享）

sdwylry 2019-04-02

PHP OCR实战：用Tesseract从图像中读取文字

它有各种各样的实际应用–从数字化印刷书籍、创建收据的电子记录，到车牌识别甚至破解基于图像的验证码。Tesseract是一个能实现OCR的开源项目。你能在*Nix系统，Mac系统和Windows系统上运行这个项目，但是只要使用一个库，我们就能在PHP项目中使

LipperZ 2016-01-15

达观数据融合自研OCR与NLP技术推出智能RPA<

2019 年7月 26 日，人工智能企业达观数据在北京召开“达道至简”为主题的产品发布会，正式推出国内首款自主研发集OCR与 NLP于一体的达观智能RPA。RPA作为一种软件产品和解决方案，在国外市场上已进入大规模发展应用。RPA 的价值在于将企业重复性劳

WarGamesdc 2020-06-30

Android 图片文字识别DEMO（基于百度OCR）

OCR 是 Optical Character Recognition 的缩写，翻译为光学字符识别，指的是针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技

alanlonglong 2020-06-14

集成百度OCR

目前Android这块没有理想的免费OCR开源框架,项目需要,我们选择了百度的OCR 产品;这里以AS开发环境,身份证信息识别功能为例,阐述集成使用ORC的过程;private static final String APIKey = "官网上传

doomvsjing 2020-06-11

使用Tensorflow Object Detection API进行集装箱识别并对集装箱号进行OCR识别

两年多之前我在“ex公司”的时候，有一个明确的项目需求是集装箱识别并计数，然后通过OCR识别出之前计数的每一个集装箱号，与其余业务系统的数据进行交换，以实现特定的整体需求。当时正好Tensorflow Object Detection API 发布了，就

lybbb 2020-03-27

selenium+云打码+百度ocr爬取360的电话号码标记

写了个脚本，用于从www.so.com 上查询电话号码的标记情况，记录下号码所属公司、标记类型、标记人数。如下图红框中的信息。主要使用python的beautifulsoup和selenium，还用到了云打码平台和百度OCR。约4-8秒处理一个号码，只能单

云之高水之远 2019-11-10

selenium+云打码+百度ocr爬取360的电话号码标记

amei0 2019-11-10

OCR文字识别技术为人工智能添彩

当代可为是一个科学技术的社会，日新月异的科学技术正在飞速发展，生活中处处都能感受到科学技术就在身边以强有力的步伐在发展。科技的魅力就在于它正在改变着我们的生活，同时改变着世界。经过多年的创新与发展，文通科技现已成长为国内知名的高新技术企业，在全国十余个城市

luoyouren 2019-10-29

Readiris Corporate 17 for Mac(专业光学识别OCR软件)

Readiris Corporate 17 Mac是一款功能强大的专业光学识别OCR软件，可识别128种文字语言！Readiris Corporate Mac能够帮助你将纸张、PDF文件、图片文字的文字元素扫描成文字，具有自动识别和自动分析的功能，识别效率

Charliewolf 2019-10-22

利用百度AI OCR图片识别，Java实现PDF中的图片转换成文字

我们搞技术的，当然得自己学着解决现在的痛点。首先，说说一些在线版的PDF图片转文字，对文件大小有限制为2M，超过了便要收费了。

chenzhx 2019-09-06

OCR SDK开发者平台新增人证API接口

今年9月3-5日在厦门举办第九届金砖五国峰会。而对于召开如此重要的峰会来说，社会治安这点是很重要一点。那么，砖五国峰会期间，如何高效处理好周边的安防问题？这里，不得不提云脉人证一致解决方案了！该方案凭借其更高的可靠性、安全性和可用性优势，将成为厦门金砖会议

liuweiITlove 2017-07-28

win10预览版10074再次更新:OCR中文语言包

regina 2015-05-12

OCR：精准、稳定、易用的文字识别

大家好，今天给大家介绍精准、稳定、易用的文字识别应用服务OCR。由此可见OCR实际上是让计算机认字，实现文字的自动输入，它是一种快捷、省力、高效的文本输入方法。需要注意的是OCR是指文字识别，但是OCR所采用的技术不仅仅是适用于文字识别。华为云学院现已发布

LinBSoft 2019-07-01

一篇文章搞定百度OCR图片文字识别API

研究百度OCR的API，主要是向做对扫描版的各种PDF进行文字识别并转Word文档的需求。这里用Postman客户端进行测试和演示。因为Postman是对各种API操作的最佳入门方式。一旦在Postman里实现了正确的调用，剩下的就只是一键生成代码，和一些

那年夏天 2019-06-30

安科网

基于Python实现对PDF文件的OCR识别

solocoder

solocoder

相关推荐

如何使用Python进行OCR识别图片中的文字

[译]OpenCV OCR and text recognition with Tesseract

只需5分钟，Python就可以建一个OCR服务器！附赠python学习资料

5分钟用Python建一个OCR服务器（文末附python教程分享）

Python爬虫验证码识别（使用Tesseract OCR识别）

每天5分钟—用Python建一个OCR服务器（附19最新python教程分享）

PHP OCR实战：用Tesseract从图像中读取文字

达观数据融合自研OCR与NLP技术推出智能RPA<

Android 图片文字识别DEMO（基于百度OCR）

集成百度OCR

使用Tensorflow Object Detection API进行集装箱识别并对集装箱号进行OCR识别

selenium+云打码+百度ocr爬取360的电话号码标记

selenium+云打码+百度ocr爬取360的电话号码标记

OCR文字识别技术为人工智能添彩

Readiris Corporate 17 for Mac(专业光学识别OCR软件)

利用百度AI OCR图片识别，Java实现PDF中的图片转换成文字

OCR SDK开发者平台新增人证API接口

win10预览版10074再次更新:OCR中文语言包

OCR：精准、稳定、易用的文字识别

一篇文章搞定百度OCR图片文字识别API

solocoder