当前位置: 首页 > 工具软件 > tika-python > 使用案例 >

【已解决】Python读取PDF文件的内容

东郭宏深
2023-12-01

前言

创作开始时间:2021年7月1日10:10:50

如题。网上给了很多种方法,但是有的不太好使,这里给出一个可行的解决方案。

环境

  • windows 10
  • conda
  • Python 3.8

解决方案

我一共尝试了三种方案,具体代码如下:

pdf_path = os.path.join("E:\\input", "中国计算机学会推荐国际学术会议和期刊目录-2019.pdf")

# 方案1
# 没有tika 的话可以运行conda install tika 或者pip install tika
from tika import parser
file_data = parser.from_file(pdf_path)
text = file_data['content']
print(text)

# 方案2
# 没有pdfplumber的话可以运行conda install pdfplumber或者pip install pdfplumber
import pdfplumber
with pdfplumber.open(pdf_path) as pdf:
    first_page = pdf.pages[0]
    print(first_page.extract_text())

# 方案3
# 没有pypdf2的话可以运行conda install pypdf2或者pip install pypdf2
from PyPDF2 import PdfFileReader
open_file = open(pdf_path, "rb")
input = PdfFileReader(open_file) 
page = input.getPage(0)
page_content = page.extractText()
print(page_content)

三个方案里面,我觉得方案一最好:

  • 读取数据完整
  • 可以读取表格数据

方案二次之:

  • 读取数据完整,
  • 但是对表格数据的解析不太好

方案三最差:

  • 读取数据不完整。

小结

以上。

创作结束时间:2021年7月1日10:25:58

参考文献

参考很多,有用者不多。

 类似资料: