当前位置：首页 > 知识库问答 >

问题：

阅读Python中的PDF并转换为PDF中的文本

酆勇

2023-03-14

我使用此代码将pdf转换为文本。

input1 = '//Home//Sai Krishna Dubagunta.pdf'
output = '//Home//Me.txt'
os.system(("pdftotext %s %s") %( input1, output))

我已经创建了主目录并将源文件粘贴到其中。

我得到的输出是

并且没有创建带有. txt的文件。问题在哪里？

共有3个答案

娄德运

2023-03-14

我认为pdftotext命令只接受一个参数。尝试使用：

os.system(("pdftotext %s") % input1)

看看会发生什么。希望这有帮助。

刘和昶

2023-03-14

你的表情

("pdftotext %s %s") %( input1, output)

将翻译为

pdftotext //Home//Sai Krishna Dubagunta.pdf //Home//Me.txt

这意味着传递给pdftotext的第一个参数是Home//Sai，第二个参数是Krishna。这显然行不通。

用引号括住参数：

os.system("pdftotext '%s' '%s'" % (input1, output))

邹学民

2023-03-14

有各种Python包可以使用Python从PDF中提取文本。您可以看到速度/质量基准。

作为PyPDF2的维护者，我有偏见，但我建议人们从PyPDF2开始，因为它是纯python和BSD 3条款许可证。这对大多数人来说应该是可行的。PyPDF2还可以处理PDF文件（例如转换）。

如果您对C依赖性感到满意，并且不想修改PDF，那么试试pypdfium2。pypdfium2速度非常快，并且具有惊人的提取质量。

我之前推荐了Poppler pdftotext。不要用那个。它的质量比PDFium/PyPDF2差。

Tika和PyMuPDF的工作原理与PDFium类似，但它们也具有非python依赖性。由于商业许可，PyMuPDF可能不适用于您。

我不会使用pdfminer/pdfminer。six/pdfplumber/pdftotext/borb/pyPdf/PyPDF3/PyPDF4。

安装：pip安装PyPDF2（更多说明）

from PyPDF2 import PdfReader

reader = PdfReader("example.pdf")
text = ""
for page in reader.pages:
    text += page.extract_text() + "\n"

安装：pip安装pdfium2

import pypdfium2 as pdfium

text = ""
pdf = pdfium.PdfDocument(data)
for i in range(len(pdf)):
    page = pdf.get_page(i)
    textpage = page.get_textpage()
    text += textpage.get_text()
    text += "\n"
    [g.close() for g in (textpage, page)]
pdf.close()

类似资料：

将多个PDF文件合并/转换为一个PDF

问题内容：如何将多个PDF文件合并/转换为一个大PDF文件？我尝试了以下操作，但是目标文件的内容不符合预期：我需要一个非常简单/基本的命令行（CLI）解决方案。最好的办法是，如果我可以将合并/转换的输出直接传送到管道中（就像我之前在这里提出的问题中最初尝试的那样：Linux管道（convert->pdf2ps-> lp）。问题答案：抱歉，我设法使用Google自己找到了答案，还有些运气：
将文本转换为PDF

问题内容：我有大量文本字符串，这些字符串显然是PDF文件的原始数据，我需要将其重新制作为PDF。目前，我正在将字符串读取到StringBuffer中，但是如果需要，可以更改它。从那里，我尝试将其写到文件中并更改扩展名（我真的希望这样做能起作用，但是我有点不知道），我尝试将其带入String，然后从中取出byte []。并将其写入文件，或使用DataOutputStream将字节放入文件中。这些
Python-将XLSX转换为PDF

我一直在我的开发服务器中使用模块来轻松地从转换为：但是，我在生产服务器中部署了我的应用程序，但我没有安装Excel应用程序，因此引发了以下错误：在Python中，从转换为有什么好的替代方法吗？我已经用PDFWriter测试了xtopdf，但是使用这个解决方案，您需要逐个读取和迭代范围并写入行。我想知道是否有一个更直接的解决方案类似于win32com。客户谢谢
在c#中阅读PDF（希伯来文）

需要一些帮助我有一个pdf，我只需要阅读它并将其内容存储在数据库中。出于某种原因，我找不到使用Itext 7实现这一点的简单示例另一件事，内容是希伯来语的，起初我用的是iTextSharp，但我得到的内容是相反的顺序，所以我有两个选择：1。修正反向代码2。也许可以在Itext7中找到一个更正常的代码，它没有这个问题。 ConvertToHebrew函数对我来说并不完美，所以我希望能找到一些不需要
用php阅读pdf文件

问题内容：我有一个很大的PDF文件，它是建筑物的平面图。它具有用于所有办公家具的图层，包括座位位置的文本框。我的目标是使用PHP读取此文件，在文档中搜索文本层，获取其内容和文件中的坐标。这样，我可以绘制出座位位置-> x / y坐标。有没有办法通过PHP做到这一点？（如果需要的话，甚至可以是Ruby或Python）问题答案：签出FPDF（使用FPDI）： http://www.fpdf.
用于将PDF转换为文本的Python模块

问题内容：哪些是将PDF文件转换为文本的最佳Python模块？问题答案：

相关问答

在Windows Python中将不可搜索的Pdf转换为可搜索的Pdf 阅读PDF的简单方法，接受文本，并写入一个新的PDF。（Java）java中通过pdfbox阅读PDF 如何用Python阅读pdf？[副本]并行文档转换ODT>PDF Libreoffice

相关文章

将HTML文件转换为PDF Python中可用于将PDF转换为文本的模块有哪些？Python实现将DOC文档转换为PDF的方法使用Python将PDF转换为HTML Java中的Docx至Pdf转换器

相关阅读

如何用Python给图片和 PDF 去掉水印 Python Pandas读取文件 Python数据类型转换【QQ阅读】Java后端一面 Python字符串大小写转换

相关工具

Android PDF 阅读器 pdf Groovy PDF PDF Chain markdown-pdf

相关文档

Python 并发中文教程 Java 并发编程实战阅读笔记阅读 express 源码 Python XlsxWriter 中文文档 JDK 源码阅读笔记