【Python】解析PDF文档文本和表格内容的四大方法介绍

很多文件为了安全都会存成PDF格式，比如有的论文、技术文档、书籍等等，这给程序读取这些文档内容带来了很多麻烦。Python目前解析PDF的扩展包有很多，本文将对比介绍PyPDF2、pdfplumber、pdfminer3k以及Camelot，告诉你哪个是好用的PDF解析工具。 码字不易，喜欢请点赞！！！

本文使用的案例PDF文档下载链接：
链接：https://pan.baidu.com/s/1zH7vY47AqBYKM0XbdABbUA
提取码：xhem

另外，获取PDF文档之后，会发现PDF文档中的换行符是以行的位置相同的，而不是跟段落相同。

1.PyPDF2解析PDF文档

这里主要参考了2019-03-07，Usman Malik写的一篇文章：Python for NLP: Working with Text and PDF Files
使用Python或者Anaconda安装PyPDF2扩展包：

            
              pip install PyPDF2

OR

conda install -c conda-forge pypdf2

读取PDF文件

            
              import PyPDF2
path = r"****.pdf"
#使用open的‘rb’方法打开pdf文件（这里必须得使用二进制rb的读取方式）
mypdf = open(path,mode='rb')
#调用PdfFileReader函数
pdf_document = PyPDF2.PdfFileReader(mypdf)
#使用pdf_document变量，获取各个信息
#或者PDF文档的页数
pdf_document.numPages  
#输出PDF文档的第一页内容
first_page = pdf_document.getPage(0)
print(first_page.extractText())

输出文档第一页内容之后会发现，PyPDF2方法对中文的支持不好，而对英文的支持会很好，所以如果处理中文文档的话，可以使用下面这个方法。

2.pdfplumber解析PDF文档

安装的话直接使用下面语句即可：

            
              pip install pdfplumber

（1）解析文本内容
pdfplumber中的extract_text函数是可以直接识别PDF中的文本内容。
首先读取整个PDF文档文本内容

            
              import pdfplumber
import pandas as pd
with pdfplumber.open(path) as pdf: 
    content = ''
    #len(pdf.pages)为PDF文档页数
    for i in range(len(pdf.pages)):
    	#pdf.pages[i] 是读取PDF文档第i+1页
        page = pdf.pages[i] 
        #page.extract_text()函数即读取文本内容，下面这步是去掉文档最下面的页码
        page_content = '\n'.join(page.extract_text().split('\n')[:-1])
        content = content + page_content
    print(content)

解析文本内容，取出PDF的 售后解决方案 中的故障代码内容，可以看到故障代码内容，如下图所示，故障代码在两页里面。
根据这类文档的规律可以知道，故障代码内容都是在文本 故障代码列举如下：和 2. 之间，因此解析PDF之后取出这部分内容还是比较容易的：

            
              print(content.split('故障代码列举如下：')[1].split('2.')[0])

运行结果如下，可以看出来很好的取出来这部分内容了。

（2）解析表格内容
上面介绍了pdfplumber解析文本内容的方法，这里介绍一下解析表格内容的方法，和上面十分类似，pdfplumber中的extract_tables函数是可以直接识别PDF中的表格的。
这里展示解析PDF文档中第一页表格的方法，可以看出案例PDF中第一页的开头就是一个表格：
由于使用extract_tables函数得到的是Table一个嵌套的List类型，转化成DataFrame会更方便查看和分析。

            
              import pdfplumber
import pandas as pd

with pdfplumber.open(path) as pdf:      
    first_page = pdf.pages[0] 
    for table in first_page.extract_tables(): 
        df = pd.DataFrame(table) 
        #第一列当成表头： df = pd.DataFrame(table[1:],columns=table[0]) 
df

可以看出这个函数非常容易的将PDF文档中的表格提取出来了。

看完上面的可以知道pdfplumber扩展包可以非常好的解析PDF的文本内容和表格内容，并且对中文有很好的支持，十分推荐使用该方法。

3.pdfminer3k解析PDF文档

pdfminer3k 是 pdfminer 的 python3 版本，主要用于读取 pdf 中的文本。如果直接搜索pdfminer3k的话会发现网上有非常多的教程，但是看了之后，你可能就想吐槽这些教程太繁琐了，看着头疼。
下面这个是pdfminer 解析PDF文档的流向图。

pdfminer 方法解析PDF可以很好的提取文本内容，但是对于表格数据，能提取出文字，但是没有格式，会很不友好。因此你如果只需要提取文本内容的话，可以使用pdfminer 扩展包，这个包也能很好的支持中文。

4.Camelot解析PDF文档

安装
Camelot先使用pip install camelot-py语句安装，如果报错，参考安装Camelot教程。
另外，使用camelot需要安装cv2包，上面这个安装教程中也有。

            
              import camelot
import pandas as pd
tables = camelot.read_pdf(filepath=path,pages='1',flavor='stream')
df = pd.DataFrame(tables[0].data)

Camelot读取PDF文件中的表格数据很好用，并且能够很好的支持中文，但是Camelot有很多局限性。
首先，使用stream时，表格无法被自动侦测到，stream把整个页面当成一个table。
其次，camelot只用使用基于文本的PDF文件而不能使用扫描文档。

综上所述，建议使用pdfplumber扩展包来解析PDF文档的文本和表格，如果只解析文本内容，也可以使用pdfminer ，而解析英文文档内容，可以使用PyPDF2。

参考文献：
https://blog.csdn.net/Asher117/article/details/83627701

更多文章、技术交流、商务合作、联系博主

微信扫码或搜索：z360901061

微信扫一扫加我为好友

QQ号联系： 360901061

您的支持是博主写作最大的动力，如果您喜欢我的文章，感觉我的文章对您有帮助，请用微信扫描下面二维码支持博主2元、5元、10元、20元等您想捐的金额吧，狠狠点击下面给点支持吧，站长非常感激您！手机微信长按不能支付解决办法：请将微信支付二维码保存到相册，切换到微信，然后点击微信右上角扫一扫功能，选择支付二维码完成支付。

【本文对您有帮助就好】元

2元

5元

10元

20元

自定义