创作开始时间:2021年7月1日10:10:50
如题。网上给了很多种方法,但是有的不太好使,这里给出一个可行的解决方案。
我一共尝试了三种方案,具体代码如下:
pdf_path = os.path.join("E:\\input", "中国计算机学会推荐国际学术会议和期刊目录-2019.pdf")
# 方案1
# 没有tika 的话可以运行conda install tika 或者pip install tika
from tika import parser
file_data = parser.from_file(pdf_path)
text = file_data['content']
print(text)
# 方案2
# 没有pdfplumber的话可以运行conda install pdfplumber或者pip install pdfplumber
import pdfplumber
with pdfplumber.open(pdf_path) as pdf:
first_page = pdf.pages[0]
print(first_page.extract_text())
# 方案3
# 没有pypdf2的话可以运行conda install pypdf2或者pip install pypdf2
from PyPDF2 import PdfFileReader
open_file = open(pdf_path, "rb")
input = PdfFileReader(open_file)
page = input.getPage(0)
page_content = page.extractText()
print(page_content)
三个方案里面,我觉得方案一最好:
方案二次之:
方案三最差:
以上。
创作结束时间:2021年7月1日10:25:58
参考很多,有用者不多。