当前位置：首页 > 面试题库 >

用于将PDF转换为文本的Python模块

濮阳鸿卓

2023-03-14

问题内容：

哪些是将PDF文件转换为文本的最佳Python模块？

问题答案：

def pdf_to_csv(filename):
    from cStringIO import StringIO  
    from pdfminer.converter import LTChar, TextConverter
    from pdfminer.layout import LAParams
    from pdfminer.pdfparser import PDFDocument, PDFParser
    from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter

    class CsvConverter(TextConverter):
        def __init__(self, *args, **kwargs):
            TextConverter.__init__(self, *args, **kwargs)

        def end_page(self, i):
            from collections import defaultdict
            lines = defaultdict(lambda : {})
            for child in self.cur_item._objs:                #<-- changed
                if isinstance(child, LTChar):
                    (_,_,x,y) = child.bbox                   
                    line = lines[int(-y)]
                    line[x] = child._text.encode(self.codec) #<-- changed

            for y in sorted(lines.keys()):
                line = lines[y]
                self.outfp.write(";".join(line[x] for x in sorted(line.keys())))
                self.outfp.write("\n")

    # ... the following part of the code is a remix of the 
    # convert() function in the pdfminer/tools/pdf2text module
    rsrc = PDFResourceManager()
    outfp = StringIO()
    device = CsvConverter(rsrc, outfp, codec="utf-8", laparams=LAParams())
        # becuase my test documents are utf-8 (note: utf-8 is the default codec)

    doc = PDFDocument()
    fp = open(filename, 'rb')
    parser = PDFParser(fp)       
    parser.set_document(doc)     
    doc.set_parser(parser)       
    doc.initialize('')

    interpreter = PDFPageInterpre

类似资料：

Python中可用于将PDF转换为文本的模块有哪些？

本文向大家介绍Python中可用于将PDF转换为文本的模块有哪些？，包括了Python中可用于将PDF转换为文本的模块有哪些？的使用技巧和注意事项，需要的朋友参考一下您可以使用PDFMiner包将PDF转换为文本。示例您可以通过以下方式使用它：这将获取一个pdf文件，并使用PDFPageInterpreter类中的process_page函数逐页提取文本。 PDFMiner的替代品具有
将文本转换为PDF

问题内容：我有大量文本字符串，这些字符串显然是PDF文件的原始数据，我需要将其重新制作为PDF。目前，我正在将字符串读取到StringBuffer中，但是如果需要，可以更改它。从那里，我尝试将其写到文件中并更改扩展名（我真的希望这样做能起作用，但是我有点不知道），我尝试将其带入String，然后从中取出byte []。并将其写入文件，或使用DataOutputStream将字节放入文件中。这些
是否有用于将RTF转换为纯文本的Python模块？

问题内容：理想情况下，我想要一个不需要超级用户访问权限即可安装的模块或库；我在工作环境中的特权有限。问题答案： OpenOffice具有RTF阅读器。您可以使用python编写OpenOffice脚本，有关更多信息，请参见此处。您可能会尝试在Windows上使用不可思议的com-object读取任何闻到ms-binary的东西。我不建议这样做。实际上，解析原始数据可能不会很困难，请参见以.
Python-将XLSX转换为PDF

我一直在我的开发服务器中使用模块来轻松地从转换为：但是，我在生产服务器中部署了我的应用程序，但我没有安装Excel应用程序，因此引发了以下错误：在Python中，从转换为有什么好的替代方法吗？我已经用PDFWriter测试了xtopdf，但是使用这个解决方案，您需要逐个读取和迭代范围并写入行。我想知道是否有一个更直接的解决方案类似于win32com。客户谢谢
使用Python将PDF转换为HTML

问题内容：如何使用Python将PDF文件转换为HTML？我只是在想Google会（或似乎会）对PDF文件建立索引的行为。我的最终目标是设置Apache以显示PDF文件的HTML，因此，向该方向发展的任何事情也将不胜感激。问题答案：该poppler的包提供了一个实用PDF2HTML您可能能够使用。还有一个Python绑定到libpoppler。
使用Python将PDF转换为.docx

我正在努力寻找用Python将PDF文件转换为.docx文件的方法。我见过其他与此相关的帖子，但在我的情况下，它们似乎都不正常。我特别使用这给了我输出[1]，但在我的文件夹中找不到任何.docx文档。我已经安装了LibreOffice 5.3。有什么线索吗？提前谢谢你！

相关阅读

将PDF转换为DOC（Python / Bash）将HTML文件转换为PDF 如何使用Python将HTML转换为PDF Python实现将DOC文档转换为PDF的方法将PDF文件转换为图像

相关文章

Python re模块用法 Python包：存放多个模块的文件夹 PDFBox PDF文档中的JavaScript Python文件基本操作 Matlab转换

相关问答

使用Python 3.7 Anaconda将PDF转换为CSV 使用PDFBox将PDF转换为PDF/A 将PDF文件转换为图像将html转换为pdf 使用Apache POI将文档转换为pdf

相关工具

汉字转换为拼音 Word转换器 UOF OpenXML 转换器 pdf GPS火星坐标转换

相关文档

Python 文本处理 Keras 基于 Python 的深度学习库中文文档每周一个 Python 3 模块中文版关于 Python 的面试题 Python 设计模式