当前位置: 首页 > 知识库问答 >
问题:

如何使用python从pdf中提取数据[复制]

陆子航
2023-03-14

我想知道如何从pdf中提取数据,通过使用python语言在py魅力。我试图通过从pypdf2导入使用py魅力编码,但它没有显示结果。

共有2个答案

沈永新
2023-03-14

使用这个代码

from PyPDF2 import PdfFileReader

reader = PdfFileReader(filename)
pageObj = reader.getNumPages()
for page_count in range(pageObj):
    page = reader.getPage(page_count)
    page_data = page.extractText()
龙涵蓄
2023-03-14

PyPDF2、PyPDF3和PyPDF4都是未维护的。我建议大家看看这个问题,尝试一下讨论的许多不同方法中的一种。

根据PyPDF2留档,提取文本()方法“对一些PDF文件效果很好,但对其他文件效果不好,这取决于使用的生成器”。在看不到代码的情况下,代码不工作的一个重要因素可能是与PDF文件本身不兼容。

 类似资料:
  • 问题内容: 我知道那里也有类似的问题,但是我找不到能回答我的祷告的东西。我需要的是一种从MS-Word文件访问某些数据并将其保存在XML文件中的方法。在python- docx 上阅读无济于事,因为它似乎只允许一个人写入Word文档,而不是阅读。要准确呈现我的任务(或我选择如何执行任务的方式):我想在文档中搜索关键字或短语(文档包含表格),并从关键字/短语所在的表格中提取文本数据找到了。有人有什么

  • 问题内容: 我的Python代码处理了以下文本: 您能建议我如何从内部提取数据吗?我的想法是将其放入具有以下格式的CSV文件中:。 我希望没有正则表达式会很困难,但实际上我仍然在反对正则表达式。 我或多或少地通过以下方式使用了代码: 理想情况下是将每个td竞争以某个数组进行竞争。上面的HTML是python的结果。 问题答案: 获取BeautifulSoup并使用它。这很棒。

  • 我正在创建一个fetchBill函数。分配https://randomapi.com/api/006b08a801d82d0c9824dcfdfdfa3b3c到一个api变量。它使用浏览器的fetch函数向api发出HTTP请求。它在一个函数中使用箭头函数。然后调用fetch函数,并在将其转换为JSON后返回响应。使用另一个。然后调用第一个函数,该函数将JSON数据传递给displayCartTo

  • 问题内容: 是否可以使用Java从PDF文件提取图像并将其导出到特定文件夹,而又不会丢失其原始创建和修改日期?我尝试通过使用IText和PDFBox实现此目标,但没有成功。欢迎任何想法或示例。 问题答案: 图像不包含元数据,并且存储为原始数据,需要将其装配到图像中。我写了2篇博客文章,解释了如何在https://blog.idrsolutions.com/2010/04/understanding

  • 问题内容: 这旨在作为一般参考问题和答案,涵盖许多永无止境的 “如何访问JSON中的数据?” 问题。它是在这里处理在PHP中解码JSON和访问结果的广泛基础知识。 我有JSON: 如何在PHP中对此进行解码并访问结果数据? 问题答案: 介绍 首先,您有一个字符串。JSON不是数组,对象或数据结构。JSON是基于文本的序列化格式,因此是花哨的字符串,但仍然只是字符串。使用解码PHP。 在其中您可能会

  • 我有关于从PDF文件中提取数据的查询。我有一个PDF文件,其中包含多个可用的数据表。我想从需要的表内容中提取数据。 如何从 PDF 文件中提取表格数据? 如何使用 iText/PDFBox 执行此操作?