python读取PDF表格

1.相关库函数

利用python读取pdf中的表格部分,并且以EXCEL的形式保存到本地,主要利用了两个库,pdfplumber和pandas,前者用于操作PDF,后者用于操作EXCEL。
先附上相关代码:

import pdfplumber
import pandas as pd
def pdf_read():
    pdf = pdfplumber.open("aaaa.pdf")
    #pages=input("转换表格的页码")
    p0=pdf.pages[37]
    table=p0.extract_table()
    print(table)
    df=pd.DataFrame(table[1:], columns=table[0])
    df.to_excel("bbbb.xlsx")

if __name__ == '__main__':
    pdf_read()

首先利用pdfplumber.open加载表格,然后跳转到表格所在的页码。执行extract_table()后,再将提取出的表格放到pandas的dataframe中,然后利用pandas另存为表格,

2.可能遇到的问题

在生成表格的时候,可能会弹出ImportError: No module named openpyxl,xlrd ,这个时候,只需要pip install openpyxl 就可以了。

更多推荐

python 读取PDF表格