当前位置：首页 > 面试题库 >

如何在数千个PDF文件中抓取表格？

汪深

2023-03-14

问题内容：

我大约有1500个PDF，每个PDF仅包含1页，并且显示相同的结构（例如，请参阅http://files.newsnetz.ch/extern/interactive/downloads/BAG_15m_kzh_2012_de.pdf）。

我正在寻找一种遍历所有这些文件（在本地，如果可能的话）并提取表的实际内容（作为CSV，存储到SQLite DB中，等等）的方法。

我很想在Node.js中做到这一点，但是找不到任何合适的库来解析这些东西。你知道吗

如果无法在Node.js中使用，也可以使用Python进行编码（如果有更好的方法可用）。

问题答案：

我以前不知道这一点，但是less具有读取pdf文件的这种神奇能力。我可以使用以下脚本从您的示例pdf中提取表数据：

import subprocess
import re

output = subprocess.check_output(["less","BAG_15m_kzh_2012_de.pdf"])

re_data_prefix = re.compile("^[0-9]+[.].*$")
re_data_fields = re.compile("(([^ ]+[ ]?)+)")
for line in output.splitlines():
    if re_data_prefix.match(line):
        print [l[0].strip() for l in re_data_fields.findall(line)]

类似资料：

如何在Java中从PDF文件中提取表格数据

我有关于从PDF文件中提取数据的查询。我有一个PDF文件，其中包含多个可用的数据表。我想从需要的表内容中提取数据。如何从 PDF 文件中提取表格数据？如何使用 iText/PDFBox 执行此操作？
如何从PDF文件中提取文本？

问题内容：我正在尝试使用提取此 PDF文件中包含的文本。我正在使用PyPDF2模块，并具有以下脚本：运行代码时，得到以下输出，该输出与PDF文档中包含的输出不同：如何提取PDF文档中的文本？问题答案：要从PDF提取文本，请使用以下代码
数千个文件中的模式匹配

问题内容：我有一个类似… 的正则表达式模式，我需要搜索成千上万个文件（大小从1KB到24 MB不等）以成千上万个文件（介于100到8000之间）。我想知道是否有比我尝试过的模式匹配更快的方法。环境：杰克1.8 Windows 10 Unix4j库这是我到目前为止尝试过的我明白了，这让我觉得我做错了什么。我对流使用了不同的方法，平均每种方法需要大约一分钟的时间来处理当前的6660个文件
如何从.jar文件读取PDF

在我的maven项目中，我有一个PDF文件，它位于文件夹中。我的函数从文件夹读取PDF文件，并根据用户的数据在文档中添加一些值。此项目使用打包为文件，并在我的其他Spring Boot应用程序中用作依赖项。在我的Spring启动项目中，我创建了将在PDF上执行一些工作的类的instace。一旦PDF文件上的所有工作都完成，并且当PDF文件保存在文件系统上时，它始终是空的（所有页面都是空白的）。
如何在Android中呈现PDF文件

问题内容： Android库中没有PDF支持。有什么方法可以在Android应用程序中呈现PDF文件吗？问题答案：自API Level 21（Lollipop）起，Android提供了PdfRenderer类：对于较旧的API，我建议使用Android PdfViewer库，该库非常快速且易于使用，并根据Apache License 2.0授权：
如何在HTML中显示PDF文件？

我有一个由itext自动生成的PDF文件，我需要在HTML中显示该PDF文件。我的问题是：如何使用PDF.js在HTML中显示一个本地PDF文件？那个PDF文件应该按照某些标准生成吗？

相关阅读

如何从PDF文件提取图像？从一组PDF文件中提取表格内容如何从PDF文档中提取文本？如何在Java中将.csv文件读取到数组列表中？如何在抓取中动态生成start_urls？

相关文章

PDFBox PDF文档中的JavaScript [实例]抓取网络照片 [实例]爬虫抓取网页什么是文件路径，Python中如何书写文件路径？牺牲我一个，幸福千万家

相关问答

如何使用此关系设置从另一个表中抓取数据？如何抓取多个重复群？如何在webView andorid中下载pdf文件如何用Python读取PDF文件中的简单文本？如何在其他PDF文件中使用字体？(itext7 PDF)

相关工具

千龙Cms 多线程页面抓取服务器 pdf Groovy PDF PDF Chain

相关文档

千古前端图文教程 QAP 千牛开发者套件 Python 取证中文教程 Element UI 组件中文文档好用的中文速查表