问题：

使用Python将PDF转换为.docx

孙绍辉

2023-03-14

我正在努力寻找用Python将PDF文件转换为.docx文件的方法。

我见过其他与此相关的帖子，但在我的情况下，它们似乎都不正常。

我特别使用

import os
import subprocess

for top, dirs, files in os.walk('/my/pdf/folder'):
    for filename in files:
        if filename.endswith('.pdf'):
            abspath = os.path.join(top, filename)
            subprocess.call('lowriter --invisible --convert-to doc "{}"'
                            .format(abspath), shell=True)

这给了我输出[1]，但在我的文件夹中找不到任何.docx文档。

我已经安装了LibreOffice 5.3。

有什么线索吗？

提前谢谢你！

共有3个答案

端木乐语

2023-03-14

我对多个文件使用此选项

####
from pdf2docx import Converter
import os

# # # dir_path for input reading and output files & a for loop # # #

path_input = '/pdftodocx/input/'
path_output = '/pdftodocx/output/'

for file in os.listdir(path_input):
    cv = Converter(path_input+file)
    cv.convert(path_output+file+'.docx', start=0, end=None)
    cv.close()
    print(file)

麻阳

2023-03-14

我的方法与使用子系统的方法不同。然而，这一项的工作是读取PDF文档的所有页面，并将它们移动到docx文件中。注意：它只适用于文本；图像和其他对象通常被忽略。

#Description: This python script will allow you to fetch text information from a pdf file

#import libraries

import PyPDF2
import os
import docx

mydoc = docx.Document() # document type
pdfFileObj = open('pdf/filename.pdf', 'rb') # pdffile loction
pdfReader = PyPDF2.PdfFileReader(pdfFileObj) # define pdf reader object

# Loop through all the pages

for pageNum in range(1, pdfReader.numPages):
        pageObj = pdfReader.getPage(pageNum)
        pdfContent = pageObj.extractText()  #extracts the content from the page. 
        print(pdfContent) # print statement to test output in the terminal. codeline optional.
        mydoc.add_paragraph(pdfContent) # this adds the content to the word document
        
mydoc.save("pdf/filename.docx") # Give a name to your output file.

姜俊友

2023-03-14

我不知道如何使用libreoffice将pdf文件转换成Word文件。
但是，您可以从pdf转换为html，然后转换html到docx。
首先，获取在命令行上运行的命令。（以下是Linux。因此，您可能必须填写soffice二进制文件的路径名称，并在操作系统上为输入文件使用完整路径）

soffice --convert-to html ./my_pdf_file.pdf

然后

soffice --convert-to docx:'MS Word 2007 XML' ./my_pdf_file.html

您应该以以下方式结束：

my_pdf_file.pdf
my_pdf_file.html
my_pdf_file.docx

现在将命令包装到子流程中

类似资料：

使用Python将PDF转换为HTML

问题内容：如何使用Python将PDF文件转换为HTML？我只是在想Google会（或似乎会）对PDF文件建立索引的行为。我的最终目标是设置Apache以显示PDF文件的HTML，因此，向该方向发展的任何事情也将不胜感激。问题答案：该poppler的包提供了一个实用PDF2HTML您可能能够使用。还有一个Python绑定到libpoppler。
Python-将XLSX转换为PDF

我一直在我的开发服务器中使用模块来轻松地从转换为：但是，我在生产服务器中部署了我的应用程序，但我没有安装Excel应用程序，因此引发了以下错误：在Python中，从转换为有什么好的替代方法吗？我已经用PDFWriter测试了xtopdf，但是使用这个解决方案，您需要逐个读取和迭代范围并写入行。我想知道是否有一个更直接的解决方案类似于win32com。客户谢谢
如何使用Python将HTML转换为PDF

本文向大家介绍如何使用Python将HTML转换为PDF，包括了如何使用Python将HTML转换为PDF的使用技巧和注意事项，需要的朋友参考一下 Python提供了Pdfcrowd API v2，可将HTML文档转换为PDF。该API非常易于使用，集成仅需要几行代码。安装从网页/ HTML到PDF的以下3个步骤将完成转换步骤1-下载库pdfkit 步骤2-现在下载wkhtmltopdf 对
使用Python 3.7 Anaconda将PDF转换为CSV

我试图将pdf文件"January2019"转换成csv文件。原始的pdf只包含某些页面上的表，我正在尝试提取这些表。我遵循http://stanford.edu/~mgorkove/cgi-bin/rpython_tutorials/Using_Python_to_Extract_Tables_From_PDFs.php教程，但是当我插入：导入PyPDF2 PDFfilename=“2019年
使用PDFBox将PDF转换为PDF/A

目前我正在尝试将PDF转换为PDF/A。然而，不知何故，我不知道我是否可以转换色彩空间，有没有办法这样做？这是我的代码，然而：色彩空间被添加但是在验证我得到：对于每个页面/元素，它都经常出现。我能做点什么来反对它吗？比如转换颜色空间？使用她的图书馆？
将PDF转换为DOC（Python / Bash）

问题内容：我看到一些页面允许用户上传并返回文件，例如PdfToWord 是否可以使用Python或任何Unix命令将文件转换为文件？提前致谢问题答案：如果您安装了LibreOffice 如果要为此使用Python：

使用Python将PDF转换为.docx

共有3个答案

相关问答

相关文章

相关阅读

相关工具

相关文档