当前位置: 首页 > 面试题库 >

如何在数千个PDF文件中抓取表格?

汪深
2023-03-14
问题内容

我大约有1500个PDF,每个PDF仅包含1页,并且显示相同的结构(例如,请参阅http://files.newsnetz.ch/extern/interactive/downloads/BAG_15m_kzh_2012_de.pdf)。

我正在寻找一种遍历所有这些文件(在本地,如果可能的话)并提取表的实际内容(作为CSV,存储到SQLite DB中,等等)的方法。

我很想在Node.js中做到这一点,但是找不到任何合适的库来解析这些东西。你知道吗

如果无法在Node.js中使用,也可以使用Python进行编码(如果有更好的方法可用)。


问题答案:

我以前不知道这一点,但是less具有读取pdf文件的这种神奇能力。我可以使用以下脚本从您的示例pdf中提取表数据:

import subprocess
import re

output = subprocess.check_output(["less","BAG_15m_kzh_2012_de.pdf"])

re_data_prefix = re.compile("^[0-9]+[.].*$")
re_data_fields = re.compile("(([^ ]+[ ]?)+)")
for line in output.splitlines():
    if re_data_prefix.match(line):
        print [l[0].strip() for l in re_data_fields.findall(line)]


 类似资料:
  • 我有关于从PDF文件中提取数据的查询。我有一个PDF文件,其中包含多个可用的数据表。我想从需要的表内容中提取数据。 如何从 PDF 文件中提取表格数据? 如何使用 iText/PDFBox 执行此操作?

  • 问题内容: 我正在尝试使用提取此 PDF文件中包含的文本。 我正在使用PyPDF2模块,并具有以下脚本: 运行代码时,得到以下输出,该输出与PDF文档中包含的输出不同: 如何提取PDF文档中的文本? 问题答案: 要从PDF提取文本,请使用以下代码

  • 在我的maven项目中,我有一个PDF文件,它位于文件夹中。我的函数从文件夹读取PDF文件,并根据用户的数据在文档中添加一些值。 此项目使用打包为文件,并在我的其他Spring Boot应用程序中用作依赖项。 在我的Spring启动项目中,我创建了将在PDF上执行一些工作的类的instace。一旦PDF文件上的所有工作都完成,并且当PDF文件保存在文件系统上时,它始终是空的(所有页面都是空白的)。

  • 问题内容: 我有一个类似… 的正则表达式模式,我需要搜索成千上万个文件(大小从1KB到24 MB不等)以成千上万个文件(介于100到8000之间)。 我想知道是否有比我尝试过的模式匹配更快的方法。 环境: 杰克1.8 Windows 10 Unix4j库 这是我到目前为止尝试过的 我明白了,这让我觉得我做错了什么。 我对流使用了不同的方法,平均每种方法需要大约一分钟的时间来处理当前的6660个文件

  • 问题内容: Android库中没有PDF支持。有什么方法可以在Android应用程序中呈现PDF文件吗? 问题答案: 自API Level 21(Lollipop)起,Android提供了PdfRenderer类: 对于较旧的API,我建议使用Android PdfViewer库,该库非常快速且易于使用,并根据Apache License 2.0授权:

  • 我有一个由itext自动生成的PDF文件,我需要在HTML中显示该PDF文件。我的问题是:如何使用PDF.js在HTML中显示一个本地PDF文件?那个PDF文件应该按照某些标准生成吗?