当前位置: 首页 > 知识库问答 >
问题:

阅读Python中的PDF并转换为PDF中的文本

酆勇
2023-03-14

我使用此代码将pdf转换为文本。

input1 = '//Home//Sai Krishna Dubagunta.pdf'
output = '//Home//Me.txt'
os.system(("pdftotext %s %s") %( input1, output))

我已经创建了主目录并将源文件粘贴到其中。

我得到的输出是

1

并且没有创建带有. txt的文件。问题在哪里?

共有3个答案

娄德运
2023-03-14

我认为pdftotext命令只接受一个参数。尝试使用:

os.system(("pdftotext %s") % input1)

看看会发生什么。希望这有帮助。

刘和昶
2023-03-14

你的表情

("pdftotext %s %s") %( input1, output)

将翻译为

pdftotext //Home//Sai Krishna Dubagunta.pdf //Home//Me.txt

这意味着传递给pdftotext的第一个参数是Home//Sai,第二个参数是Krishna。这显然行不通。

用引号括住参数:

os.system("pdftotext '%s' '%s'" % (input1, output))
邹学民
2023-03-14

有各种Python包可以使用Python从PDF中提取文本。您可以看到速度/质量基准。

作为PyPDF2的维护者,我有偏见,但我建议人们从PyPDF2开始,因为它是纯python和BSD 3条款许可证。这对大多数人来说应该是可行的。PyPDF2还可以处理PDF文件(例如转换)。

如果您对C依赖性感到满意,并且不想修改PDF,那么试试pypdfium2。pypdfium2速度非常快,并且具有惊人的提取质量。

我之前推荐了Poppler pdftotext。不要用那个。它的质量比PDFium/PyPDF2差。

Tika和PyMuPDF的工作原理与PDFium类似,但它们也具有非python依赖性。由于商业许可,PyMuPDF可能不适用于您。

我不会使用pdfminer/pdfminer。six/pdfplumber/pdftotext/borb/pyPdf/PyPDF3/PyPDF4。

安装:pip安装PyPDF2(更多说明)

from PyPDF2 import PdfReader

reader = PdfReader("example.pdf")
text = ""
for page in reader.pages:
    text += page.extract_text() + "\n"

安装:pip安装pdfium2

import pypdfium2 as pdfium

text = ""
pdf = pdfium.PdfDocument(data)
for i in range(len(pdf)):
    page = pdf.get_page(i)
    textpage = page.get_textpage()
    text += textpage.get_text()
    text += "\n"
    [g.close() for g in (textpage, page)]
pdf.close()
 类似资料:
  • 问题内容: 如何将多个PDF文件合并/转换为一个大PDF文件? 我尝试了以下操作,但是目标文件的内容不符合预期: 我需要一个非常简单/基本的命令行(CLI)解决方案。最好的办法是,如果我可以将合并/转换的输出直接传送到管道中(就像我之前在这里提出的问题中最初尝试的那样:Linux管道(convert->pdf2ps-> lp)。 问题答案: 抱歉,我设法使用Google自己找到了答案,还有些运气:

  • 问题内容: 我有大量文本字符串,这些字符串显然是PDF文件的原始数据,我需要将其重新制作为PDF。 目前,我正在将字符串读取到StringBuffer中,但是如果需要,可以更改它。从那里,我尝试将其写到文件中并更改扩展名(我真的希望这样做能起作用,但是我有点不知道),我尝试将其带入String,然后从中取出byte []。并将其写入文件,或使用DataOutputStream将字节放入文件中。这些

  • 我一直在我的开发服务器中使用模块来轻松地从转换为: 但是,我在生产服务器中部署了我的应用程序,但我没有安装Excel应用程序,因此引发了以下错误: 在Python中,从转换为有什么好的替代方法吗? 我已经用PDFWriter测试了xtopdf,但是使用这个解决方案,您需要逐个读取和迭代范围并写入行。我想知道是否有一个更直接的解决方案类似于win32com。客户 谢谢

  • 需要一些帮助我有一个pdf,我只需要阅读它并将其内容存储在数据库中。出于某种原因,我找不到使用Itext 7实现这一点的简单示例 另一件事,内容是希伯来语的,起初我用的是iTextSharp,但我得到的内容是相反的顺序,所以我有两个选择:1。修正反向代码2。也许可以在Itext7中找到一个更正常的代码,它没有这个问题。 ConvertToHebrew函数对我来说并不完美,所以我希望能找到一些不需要

  • 问题内容: 我有一个很大的PDF文件,它是建筑物的平面图。它具有用于所有办公家具的图层,包括座位位置的文本框。 我的目标是使用PHP读取此文件,在文档中搜索文本层,获取其内容和文件中的坐标。这样,我可以绘制出座位位置-> x / y坐标。 有没有办法通过PHP做到这一点?(如果需要的话,甚至可以是Ruby或Python) 问题答案: 签出FPDF(使用FPDI): http://www.fpdf.

  • 问题内容: 哪些是将PDF文件转换为文本的最佳Python模块? 问题答案: