当前位置: 首页 > 知识库问答 >
问题:

如何使用Python3和PyPDF2(或任何其他方式)将pdf转换为.docx文件?[闭门]

习淇
2023-03-14

我想把一个. pdf转换成一个. docx文件。我尝试了一些方法,但这似乎是最好的方法(如果我错了,请纠正我)。我见过这个SO问题,但它对我不起作用——它和这个一样:

import PyPDF2

path=r"C:\Users\name\Desktop\test maker tester\Computer Science\414838-2020-specimen-paper-1.pdf"
text=""
pdf_file = open(path, 'rb')
text =""
read_pdf = PyPDF2.PdfFileReader(pdf_file)
c = read_pdf.numPages
for i in range(c):
    page = read_pdf.getPage(i)
    text+=(page.extractText())

它没有给我一个错误,但我找不到任何Word文档,PDF仍然存在。。。

你知道如何解决这个问题,或者可以建议任何其他方法将. pdf转换成. docx文件吗?

共有1个答案

郎弘业
2023-03-14

您没有直接的方式或Python中的包,可以无缝地将pdf转换为docx。您尝试的方法将pdf转换为docx,但文档的所有格式都将被删除,您将只能在转换后的docx中获得纯文本,而没有样式。

我个人通过python尝试了Adobe的DocumentCloudSDK,它通过保留pdf文档的原始本机格式将pdf转换为docx。转换每个文档大约需要15秒。您可以通过以下链接找到有关如何开始的更多信息:

https://github.com/adobe/dc-view-sdk-samples

https://www.adobe.io/apis/documentcloud/dcsdk/docs.html

至于通过python使用此服务的问题,您必须使用子进程或os.system命令来调用此服务的命令行命令。

更新:

您可以在此处链接找到此方法实现的详细说明。虽然这是用于OCR转换,但将pdf转换为docx的过程也完全相同。

 类似资料:
  • 我正在寻找一些“稳定”的方法来转换从MS WORD到PDF文件的DOCX文件。从现在起,我使用OpenOffice安装作为监听器,但它经常挂起。问题是,当许多用户同时想要将SXW、DOCX文件转换成PDF时,我们会遇到这样的情况。还有其他的可能性吗?我尝试了这个网站上的示例:https://angelozerr.wordpress.com/2012/12/06/how-to-convert-doc

  • null 很抱歉,我无法发布我尝试过的任何内容,因为我还没有在此任务上尝试过任何内容,尽管我使用将从获得的转换为,以便在应用程序的中输出。请开导我,我在压力和困惑中迷失了……!

  • 我正在努力寻找用Python将PDF文件转换为.docx文件的方法。 我见过其他与此相关的帖子,但在我的情况下,它们似乎都不正常。 我特别使用 这给了我输出[1],但在我的文件夹中找不到任何.docx文档。 我已经安装了LibreOffice 5.3。 有什么线索吗? 提前谢谢你!

  • 我正在使用一个带有python函数的env将docx转换为pdf文件。我在用邮递员寄base64。然后我挂载docx文件(一切都正常),但是当它将docx文件转换为pdf时,会出现一个错误。我想那是因为我的环境里没有办公室?没有办公室我怎么能修好它?谢谢 系统。私人。CoreLib:执行函数时的异常:函数。FunConzer.系统。私人。CoreLib:结果:失败异常:属性错误:模块'comtyp

  • 我在Ubuntu18.04容器中安装了LibreOffice6.4。 目标是将pdf文件转换为DOCX。 我已经尝试过这些命令: 并返回以下消息: 我可以看到它需要参数,因为输入文件是PDF。 但是,它使用的是筛选器,我需要将它切换到,我该怎么做呢? 我已经试过这些了,但不起作用: 他们总是返回这条消息(同上):