问题：

如何使用Python3和PyPDF2（或任何其他方式）将pdf转换为.docx文件？[闭门]

习淇

2023-03-14

我想把一个. pdf转换成一个. docx文件。我尝试了一些方法，但这似乎是最好的方法（如果我错了，请纠正我）。我见过这个SO问题，但它对我不起作用——它和这个一样：

import PyPDF2

path=r"C:\Users\name\Desktop\test maker tester\Computer Science\414838-2020-specimen-paper-1.pdf"
text=""
pdf_file = open(path, 'rb')
text =""
read_pdf = PyPDF2.PdfFileReader(pdf_file)
c = read_pdf.numPages
for i in range(c):
    page = read_pdf.getPage(i)
    text+=(page.extractText())

它没有给我一个错误，但我找不到任何Word文档，PDF仍然存在。。。

你知道如何解决这个问题，或者可以建议任何其他方法将. pdf转换成. docx文件吗？

共有1个答案

郎弘业

2023-03-14

您没有直接的方式或Python中的包，可以无缝地将pdf转换为docx。您尝试的方法将pdf转换为docx，但文档的所有格式都将被删除，您将只能在转换后的docx中获得纯文本，而没有样式。

我个人通过python尝试了Adobe的DocumentCloudSDK，它通过保留pdf文档的原始本机格式将pdf转换为docx。转换每个文档大约需要15秒。您可以通过以下链接找到有关如何开始的更多信息：

https://github.com/adobe/dc-view-sdk-samples

https://www.adobe.io/apis/documentcloud/dcsdk/docs.html

至于通过python使用此服务的问题，您必须使用子进程或os.system命令来调用此服务的命令行命令。

更新：

您可以在此处链接找到此方法实现的详细说明。虽然这是用于OCR转换，但将pdf转换为docx的过程也完全相同。

类似资料：

用Java将docx文件转换为PDF

我正在寻找一些“稳定”的方法来转换从MS WORD到PDF文件的DOCX文件。从现在起，我使用OpenOffice安装作为监听器，但它经常挂起。问题是，当许多用户同时想要将SXW、DOCX文件转换成PDF时，我们会遇到这样的情况。还有其他的可能性吗？我尝试了这个网站上的示例:https://angelozerr.wordpress.com/2012/12/06/how-to-convert-doc
如何使用docx4j将HTML转换为.docx？[关闭]

null 很抱歉，我无法发布我尝试过的任何内容，因为我还没有在此任务上尝试过任何内容，尽管我使用将从获得的转换为，以便在应用程序的中输出。请开导我，我在压力和困惑中迷失了……！
使用Python将PDF转换为.docx

我正在努力寻找用Python将PDF文件转换为.docx文件的方法。我见过其他与此相关的帖子，但在我的情况下，它们似乎都不正常。我特别使用这给了我输出[1]，但在我的文件夹中找不到任何.docx文档。我已经安装了LibreOffice 5.3。有什么线索吗？提前谢谢你！
如何使用python函数（WINDOWS）将docx转换为pdf？

我正在使用一个带有python函数的env将docx转换为pdf文件。我在用邮递员寄base64。然后我挂载docx文件（一切都正常），但是当它将docx文件转换为pdf时，会出现一个错误。我想那是因为我的环境里没有办公室？没有办公室我怎么能修好它？谢谢系统。私人。CoreLib：执行函数时的异常：函数。FunConzer.系统。私人。CoreLib：结果：失败异常：属性错误：模块'comtyp
如何在LibreOffice6.4中将pdf转换为docx？

我在Ubuntu18.04容器中安装了LibreOffice6.4。目标是将pdf文件转换为DOCX。我已经尝试过这些命令：并返回以下消息：我可以看到它需要参数，因为输入文件是PDF。但是，它使用的是筛选器，我需要将它切换到，我该怎么做呢？我已经试过这些了，但不起作用：他们总是返回这条消息（同上）：
用Docx4j逐页将.docx转换为.png,将其他格式转换为png

如何使用Python3和PyPDF2（或任何其他方式）将pdf转换为.docx文件？[闭门]

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档