首页 > 编程开发文章详情

python 读取PDF表格

编程开发更新时间:2023-04-27 10:28:25

python读取PDF表格

1.相关库函数

利用python读取pdf中的表格部分，并且以EXCEL的形式保存到本地，主要利用了两个库，pdfplumber和pandas，前者用于操作PDF,后者用于操作EXCEL。
先附上相关代码：

import pdfplumber
import pandas as pd
def pdf_read():
    pdf = pdfplumber.open("aaaa.pdf")
    #pages=input("转换表格的页码")
    p0=pdf.pages[37]
    table=p0.extract_table()
    print(table)
    df=pd.DataFrame(table[1:], columns=table[0])
    df.to_excel("bbbb.xlsx")

if __name__ == '__main__':
    pdf_read()

首先利用pdfplumber.open加载表格，然后跳转到表格所在的页码。执行extract_table()后，再将提取出的表格放到pandas的dataframe中，然后利用pandas另存为表格，

2.可能遇到的问题

在生成表格的时候，可能会弹出ImportError: No module named openpyxl,xlrd ，这个时候，只需要pip install openpyxl 就可以了。

更多推荐

python 读取PDF表格

本文发布于:2023-04-27 07:29:00，感谢您对本站的认可！

本文链接:https://www.52dianzi.com/category/article/eeebfce9a489c784669448e62b136ce1.html

版权声明:本站内容均来自互联网，仅供演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。

表格 python PDF

上一篇：使用Python读取本地文件的4种方式
下一篇：返回列表

智慧餐饮开发|APP开发|盲盒商城源码

发布评论取消回复

评论列表（有 0 条评论）

热门文章