Python2.7读取PDF文件的方法示例

ssliudh

2017-07-13

本文实例讲述了Python2.7读取PDF文件的方法。分享给大家供大家参考，具体如下：

这篇文章示例代码采用的Python版本是2.7，需要下载的插件是PDFMiner，下载地址是http://www.unixuser.org/~euske/python/pdfminer/，地址里有安装方法，我就不再细说了，需要说明的是Python2只能使用PDFMiner，Python3不能使用，Python3可以使用PDFMiner3K，下载地址为https://pypi.python.org/pypi/pdfminer3k/。两种插件使用上大体相似，这里我以Python2为例，使用PDFMiner插件。代码如下：

#!/usr/bin/env python
#-*- coding:utf-8 -*-
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfpage import PDFTextExtractionNotAllowed
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
from pdfminer.layout import LAParams
from pdfminer.converter import PDFPageAggregator
#获取文档对象，你把algorithm.pdf换成你自己的文件名即可。
fp=open("algorithm.pdf","rb")
#创建一个与文档相关联的解释器
parser=PDFParser(fp)
#PDF文档对象
doc=PDFDocument(parser)
#链接解释器和文档对象
parser.set_document(doc)
#doc.set_paeser(parser)
#初始化文档
#doc.initialize("")
#创建PDF资源管理器
resource=PDFResourceManager()
#参数分析器
laparam=LAParams()
#创建一个聚合器
device=PDFPageAggregator(resource,laparams=laparam)
#创建PDF页面解释器
interpreter=PDFPageInterpreter(resource,device)
#使用文档对象得到页面集合
for page in PDFPage.create_pages(doc):
  #使用页面解释器来读取
  interpreter.process_page(page)
  #使用聚合器来获取内容
  layout=device.get_result()
  for out in layout:
    if hasattr(out, "get_text"):
      print out.get_text()

更多关于Python相关内容感兴趣的读者可查看本站专题：《Python文件与目录操作技巧汇总》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》及《Python入门与进阶经典教程》

希望本文所述对大家Python程序设计有所帮助。

pdf python pdfminer

安科网

Python2.7读取PDF文件的方法示例

ssliudh

ssliudh

相关推荐

Python实用技：将Office文件转为PDF

用 Python 写了一个PDF转换器，以后再也不用花钱转了

把 Linux 上的文件列表和排序玩出花来

用Python实现一款永久免费的PDF编辑工具

Kendo UI for jQuery数据管理使用教程：PDF导出（二）

神经网络提取PDF表格工具来了，支持图片，还能白嫖谷歌GPU资源

Python灰帽子：黑客与逆向工程师的Python编程之道PDF高清完整版免费下载|百度云盘

使用Python从PDF文件中提取数据

[PDF] Rendering on Canvas

将PDF转为 Word（支持Docx、Doc）、Html、XPS、SVG、PS、PCL、PNG

Hadoop权威指南第四版高清PDF下载

Hadoop权威指南第四版高清PDF下载

Python编程：从入门到实践中文pdf扫描版高清下载

Python编程：从入门到实践中文pdf扫描版高清下载

Python语言及其应用PDF高清完整版免费下载|百度云盘|python基础教程PDF电子书

《21天学通Python》PDF免费下载|百度网盘|python零基础知识入门学习方法

苹果开发之Cocoa编程原书第4版 pdf 电子书

《嵌入式LINUX系统开发教程_贺丹丹编》高清pdf下载链接

阿里P5到阿里P7架构师，离不开这一份深入浅出JVM教程PDF文档

找了很久的PDF文档——深入浅出springboot，Java程序员力荐

ssliudh