当前位置：首页 > 面试题库 >

如何从PDF文件中提取文本？

辛星宇

2023-03-14

问题内容：

我正在尝试使用提取此 PDF文件中包含的文本Python。

我正在使用PyPDF2模块，并具有以下脚本：

import PyPDF2
pdf_file = open('sample.pdf')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(0)
page_content = page.extractText()
print page_content

运行代码时，得到以下输出，该输出与PDF文档中包含的输出不同：

!"#$%#$%&%$&'()*%+,-%./01'*23%4
5'%1$#26%3/%7/))/8%&)/26%8#3"%3"*%313/9#&)
%

如何提取PDF文档中的文本？

问题答案：

要从PDF提取文本，请使用以下代码

import PyPDF2
pdfFileObj = open('mypdf.pdf', 'rb')

pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

print(pdfReader.numPages)

pageObj = pdfReader.getPage(0)

a = pageObj.extractText()

print(a)

类似资料：

如何从PDF文档中提取文本？

问题内容：如何使用PHP 从PDF文档中提取文本？（我不能使用其他工具，我没有root用户访问权限）我发现一些函数可用于纯文本，但是它们不能很好地处理Unicode字符： http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf- data-extraction-437.html 问题答案：下载 c
如何从PDF文件提取图像？

问题内容：我需要从服务器上的PDF文件中提取所有图像。我不想要PDF页面，只想要原始尺寸和分辨率的图像。如何使用Perl，PHP或任何其他基于UNIX的应用程序（我将使用PHP的exec函数调用它）来做到这一点？问题答案： pdfimages就是这样做的。它是poppler- utils和xpdf-utils软件包的一部分。从联机帮助页： Pdfimages将可移植文档格式（PDF）文件中
如何从PDF文件提取文本和文本坐标？

问题内容：我想使用PDFMiner从PDF文件中提取所有文本框和文本框坐标。其他许多Stack Overflow帖子都介绍了如何以有序方式提取所有文本，但是我该如何做获取文本和文本位置的中间步骤呢？给定一个PDF文件，输出应类似于：问题答案：换行符在最终输出中转换为下划线。这是我发现的最小工作解决方案。
如何使用Apache PDFBox从PDF文件提取文本

问题内容：我想使用Apache PDFBox从给定的PDF文件中提取文本。我写了这段代码：但是，出现以下错误：我在类路径中添加了pdfbox-1.8.5.jar和fontbox-1.8.5.jar。编辑我添加到程序的开头。我运行了它，然后出现了与上述相同的错误，并且未出现在控制台中。因此，我认为我对类路径或其他东西有疑问。谢谢。问题答案：我执行了您的代码，它工作正常。也许您的
如何从中提取文件。obb文件？

在我的应用程序中，我下载了Android系统的扩展文件- 我尝试将APK扩展Zip库用作：但是expansionFile总是空的。这个obb文件是用Jobb创建的，用于文件夹obb/file。拉链
用Java从Office和PDF文件中提取文本

我有一个列表。pdf，ppt，pptx，xls，xlsx，doc和。docx文件，现在想在这些文件中查找电子邮件地址。我的问题是如何从这些文件中智能地提取计划文本。目前我正在使用Apache POI，我对每种类型的文件都有一个单一的方法，是否有一个更短、更优雅的位置来做这件事？也许还可以处理。ODT、.ODP、.ODS文件？如何从。pdf,ppt,pptx,xls,xlsx,doc和.docx文件

如何从PDF文件中提取文本？

相关阅读

相关文章

相关问答

相关工具

相关文档