问题：

在不创建文件的情况下将pdf转换为文本

沈高峻

2023-03-14

res=requests.get（url,timeout=none)

共有1个答案

程凯定

2023-03-14

faik,您将必须至少创建一个临时文件,以便您可以执行您的过程。

您可以使用以下代码获取/读取PDF文件并将其转换为文本文件。这就利用了PDFMINER和Python3.7。

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import HTMLConverter,TextConverter,XMLConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
import io

def convert(case,fname, pages=None):
    if not pages:
        pagenums = set()
    else:
        pagenums = set(pages)
    manager = PDFResourceManager()
    codec = 'utf-8'
    caching = True
    output = io.StringIO()
    converter = TextConverter(manager, output, codec=codec, laparams=LAParams())
    interpreter = PDFPageInterpreter(manager, converter)
    infile = open(fname, 'rb')
    for page in PDFPage.get_pages(infile, pagenums, caching=caching, check_extractable=True):
        interpreter.process_page(page)

    convertedPDF = output.getvalue()
    print(convertedPDF)

    infile.close()
    converter.close()
    output.close()
    return convertedPDF

调用上述程序的主要函数：

import os
import converter
import sys, getopt

class ConvertMultiple:
    def convert_multiple(pdf_dir, txt_dir):
        if pdf_dir == "": pdf_dir = os.getcwd() + "\\"  # if no pdfDir passed in
        for pdf in os.listdir(pdf_dir):  # iterate through pdfs in pdf directory
            print("File name is %s", os.path.basename(pdf))
            file_extension = pdf.split(".")[-1]
            print("file extension is %s", file_extension)
            if file_extension == "pdf":
                pdf_file_name = pdf_dir + pdf
                path = 'E:/pdf/' + os.path.basename(pdf)
                print(path)
                text = converter.convert('text', path)  # get string of text content of pdf
                text_file_name = txt_dir + pdf + ".txt"
                text_file = open(text_file_name, "w")  # make text file
                text_file.write(text)  # write text to text file


pdf_dir = "E:/pdf"
txt_dir = "E:/text"
ConvertMultiple.convert_multiple(pdf_dir, txt_dir)

类似资料：

在不创建文件夹的情况下提取tar文件

我想提取Unix tar xvf/home/test/group中的tar文件。tar和提取后得到一个文件夹组，其中包含xls、pdf和txt文件列表。我怎样才能提取内容的group.tar /home/test/list的xls， pdf文件没有创建组文件夹。任何特定的命令可用或必须跟随复制和移动？？谢啦！
如何只在文件不存在的情况下创建文件

在C语言中，我可以用和调用来创建新文件，当且仅当当前没有同名文件时。我还没能在哈斯克尔找到这样做的方法。我更喜欢提供的友好的东西，最好是为我完成所有棘手的异常处理。（我不一定期望它能正确地为我完成，但那是另一回事。）
将HTML文件转换为PDF

问题内容：按照目前的情况，这个问题并不适合我们的问答形式。我们希望答案得到事实，参考或专业知识的支持，但是这个问题可能会引起辩论，争论，民意调查或扩展讨论。如果您认为此问题可以解决并且可以重新提出，请访问帮助中心以获取指导。 7年前关闭。我需要从现有的（X）HTML文档自动生成PDF文件。输入文件（报告）使用非常简单的基于表的布局，因此可能不需要支持真正精美的JavaScript / CSS。
默认情况下创建文本文件[重复]

我正在尝试使用以下步骤在Ruby中创建一个. rb文件：这将创建一个名为“a”的文件，该文件工作正常；然而，当我将该文件重命名为.rb时，它会立即将该文件转换为文本文件。这是为什么？我一直在创建文件，从一开始就创建了一个新文件，并将其命名为“< code>a.rb”，它会自动将其关联到一个ruby文件。现在，它只是将命名关联到一个文本文件，我必须去掉< code >。rb并在以后手动分配文件类
将扫描的pdf文件转换为文本搜索的pdf文件

我想将扫描的pdf文件转换为文本可搜索的pdf文件。我想给一个输入扫描的PDF然后我的预期输出是可搜索的PDF。很少有工具可以将扫描的pdf文件中的文本作为输出，但我希望可以搜索文本的pdf文件作为输出，而不仅仅是文本。我在这里搜索了一下，找到了一个解决方案，但我的生产服务器是amazon centos，这个工具的安装只适用于ubuntu，不适用于amazon centos。如果需要，我准备
将文本转换为PDF

问题内容：我有大量文本字符串，这些字符串显然是PDF文件的原始数据，我需要将其重新制作为PDF。目前，我正在将字符串读取到StringBuffer中，但是如果需要，可以更改它。从那里，我尝试将其写到文件中并更改扩展名（我真的希望这样做能起作用，但是我有点不知道），我尝试将其带入String，然后从中取出byte []。并将其写入文件，或使用DataOutputStream将字节放入文件中。这些

在不创建文件的情况下将pdf转换为文本

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档