另类爬虫：从PDF文件中爬取表格数据

YannZoe

2019-06-28

简介

本文将展示一个稍微不一样点的爬虫。
以往我们的爬虫都是从网络上爬取数据，因为网页一般用HTML,CSS,JavaScript代码写成，因此，有大量成熟的技术来爬取网页中的各种数据。这次，我们需要爬取的文档为PDF文件。本文将展示如何利用Python的camelot模块从PDF文件中爬取表格数据。
在我们的日常生活和工作中，PDF文件无疑是最常用的文件格式之一，小到教材、课件，大到合同、规划书，我们都能见到这种文件格式。但如何从PDF文件中提取其中的表格，这却是一个大难题。因为PDF中没有一个内部的表示方式来表示一个表格。这使得表格数据很难被抽取出来做分析。那么，我们如何做到从PDF中爬取表格数据呢？
答案是Python的camelot模块！
camelot是Python的一个模块，它能够让任何人轻松地从PDF文件中提取表格数据。可以使用以下命令安装camelot模块（安装时间较长）：

pip install camelot-py

camelot模块的官方文档地址为：https://camelot-py.readthedoc...。
下面将展示如何利用camelot模块从PDF文件中爬取表格数据。

例1

首先，让我们看一个简单的例子：eg.pdf，整个文件只有一页，这一页中只有一个表格，如下：

另类爬虫：从PDF文件中爬取表格数据

使用以下Python代码就可以提取该PDF文件中的表格：

import camelot

# 从PDF文件中提取表格
tables = camelot.read_pdf('E://eg.pdf', pages='1', flavor='stream')

# 表格信息
print(tables)
print(tables[0])
# 表格数据
print(tables[0].data)

输出结果为：

<TableList n=1>
<Table shape=(4, 4)>
[['ID', '姓名', '城市', '性别'], ['1', 'Alex', 'Shanghai', 'M'], ['2', 'Bob', 'Beijing', 'F'], ['3', 'Cook', 'New York', 'M']]

分析代码，camelot.read_pdf()为camelot的从表格中提取数据的函数，输入的参数为PDF文件的路径，页码（pages）和表格解析方法（有stream和lattice两个方法）。对于表格解析方法，默认的方法为lattice，而stream方法默认会把整个PDF页面当做一个表格来解析，如果需要指定解析页面中的区域，可以使用table_area这个参数。
camelot模块的便捷之处还在于它提供了将提取后的表格数据直接转化为pandas，csv，JSON，html的函数，如tables[0].df，tables[0].to_csv()函数等。我们以输出csv文件为例：

import camelot

# 从PDF文件中提取表格
tables = camelot.read_pdf('E://eg.pdf', pages='1', flavor='stream')

# 将表格数据转化为csv文件
tables[0].to_csv('E://eg.csv')

得到的csv文件如下：

另类爬虫：从PDF文件中爬取表格数据

例2

在例2中，我们将提取PDF页面中的某一区域的表格的数据。PDF文件的页面（部分）如下：

另类爬虫：从PDF文件中爬取表格数据

为了提取整个页面中唯一的表格，我们需要定位表格所在的位置。PDF文件的坐标系统与图片不一样，它以左下角的顶点为原点，向右为x轴，向上为y轴，可以通过以下Python代码输出整个页面的文字的坐标情况：

import camelot

# 从PDF中提取表格
tables = camelot.read_pdf('G://Statistics-Fundamentals-Succinctly.pdf', pages='53', \
                          flavor='stream')

# 绘制PDF文档的坐标，定位表格所在的位置
tables[0].plot('text')

输出结果为：

UserWarning: No tables found on page-53 [stream.py:292]

整个代码没有找到表格，这是因为stream方法默认将整个PDF页面当作表格，因此就没有找到表格。但是绘制的页面坐标的图像如下：

另类爬虫：从PDF文件中爬取表格数据

仔细对比之前的PDF页面，我们不难发现，表格对应的区域的左上角坐标为（50,620），右下角的坐标为（500,540）。我们在read_pdf()函数中加入table_area参数，完整的Python代码如下：

import camelot

# 识别指定区域中的表格数据
tables = camelot.read_pdf('G://Statistics-Fundamentals-Succinctly.pdf', pages='53', \
                          flavor='stream', table_area=['50,620,500,540'])

# 绘制PDF文档的坐标，定位表格所在的位置
table_df = tables[0].df

print(type(table_df))
print(table_df.head(n=6))

输出的结果为：

<class 'pandas.core.frame.DataFrame'>
         0               1                2           3
0  Student  Pre-test score  Post-test score  Difference
1        1              70               73           3
2        2              64               65           1
3        3              69               63          -6
4        …               …                …           …
5       34              82               88           6

总结

在具体识别PDF页面中的表格时，除了指定区域这个参数，还有上下标、单元格合并等参数，详细地使用方法可参考camelot官方文档网址：https://camelot-py.readthedoc...。

注意：本人现已开通微信公众号： Python爬虫与算法（微信号为：easy_web_scrape），欢迎大家关注哦~~

参考文献

camelot模块的官方文档：https://camelot-py.readthedoc...
Camelot：一个从pdf抽取表格数据的Python库：https://blog.csdn.net/qq_4092...

pdf html表格

安科网

另类爬虫：从PDF文件中爬取表格数据

YannZoe

简介

例1

例2

总结

参考文献

YannZoe

相关推荐

Python实用技：将Office文件转为PDF

用 Python 写了一个PDF转换器，以后再也不用花钱转了

把 Linux 上的文件列表和排序玩出花来

用Python实现一款永久免费的PDF编辑工具

Kendo UI for jQuery数据管理使用教程：PDF导出（二）

神经网络提取PDF表格工具来了，支持图片，还能白嫖谷歌GPU资源

Python灰帽子：黑客与逆向工程师的Python编程之道PDF高清完整版免费下载|百度云盘

使用Python从PDF文件中提取数据

[PDF] Rendering on Canvas

将PDF转为 Word（支持Docx、Doc）、Html、XPS、SVG、PS、PCL、PNG

Hadoop权威指南第四版高清PDF下载

Hadoop权威指南第四版高清PDF下载

Python编程：从入门到实践中文pdf扫描版高清下载

Python编程：从入门到实践中文pdf扫描版高清下载

Python语言及其应用PDF高清完整版免费下载|百度云盘|python基础教程PDF电子书

《21天学通Python》PDF免费下载|百度网盘|python零基础知识入门学习方法

苹果开发之Cocoa编程原书第4版 pdf 电子书

《嵌入式LINUX系统开发教程_贺丹丹编》高清pdf下载链接

阿里P5到阿里P7架构师，离不开这一份深入浅出JVM教程PDF文档

找了很久的PDF文档——深入浅出springboot，Java程序员力荐

YannZoe