当前位置: 首页 > 知识库问答 >
问题:

如何在Java中从PDF文件中提取表格数据

曹自怡
2023-03-14

我有关于从PDF文件中提取数据的查询。我有一个PDF文件,其中包含多个可用的数据表。我想从需要的表内容中提取数据。

如何从 PDF 文件中提取表格数据?

如何使用 iText/PDFBox 执行此操作?

共有1个答案

贺景铄
2023-03-14

Tabula-java是一个用于从PDF文件中提取表格的库。它是为Tabula(回购)提供支持的表提取引擎。您可以使用Tabula-java作为命令行工具,以编程方式从PDF中提取表格。

 类似资料:
  • 问题内容: 我正在尝试使用提取此 PDF文件中包含的文本。 我正在使用PyPDF2模块,并具有以下脚本: 运行代码时,得到以下输出,该输出与PDF文档中包含的输出不同: 如何提取PDF文档中的文本? 问题答案: 要从PDF提取文本,请使用以下代码

  • 问题内容: 我有一堆PDF-可能是数百或数千。它们的格式并非全部相同,但是它们中的任何一个都可以具有一个或多个表,这些表包含我想收集到单独数据库中的有趣信息。 当然,我知道我必须写点东西才能做到这一点。Perl是我的选择-也许是Java。只要是免费的,我就不在乎什么语言(或者免费试用,以确保它适合我的目的)。 我正在查看CAM :: Parse(使用Strawberry Perl),但是我不确定如

  • 问题内容: 我大约有1500个PDF,每个PDF仅包含1页,并且显示相同的结构(例如,请参阅http://files.newsnetz.ch/extern/interactive/downloads/BAG_15m_kzh_2012_de.pdf)。 我正在寻找一种遍历所有这些文件(在本地,如果可能的话)并提取表的实际内容(作为CSV,存储到SQLite DB中,等等)的方法。 我很想在Node.

  • 问题内容: 如何 使用PHP 从PDF文档中提取文本? (我不能使用其他工具,我没有root用户访问权限) 我发现一些函数可用于纯文本,但是它们不能很好地处理Unicode字符: http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf- data-extraction-437.html 问题答案: 下载 c

  • 我有一个列表。pdf,ppt,pptx,xls,xlsx,doc和。docx文件,现在想在这些文件中查找电子邮件地址。我的问题是如何从这些文件中智能地提取计划文本。目前我正在使用Apache POI,我对每种类型的文件都有一个单一的方法,是否有一个更短、更优雅的位置来做这件事?也许还可以处理。ODT、.ODP、.ODS文件?如何从。pdf,ppt,pptx,xls,xlsx,doc和.docx文件

  • 我正在尝试使用Python从PDF文件中提取文本。我的主要目标是创建一个程序,读取银行对账单并提取其文本,以更新excel文件,方便记录每月的支出。现在我只专注于从pdf文件中提取文本,但我不知道怎么做。 目前将PDF文件中的文本提取为字符串的最佳且最简单的方法是什么?今天最适合使用的图书馆是什么?我该怎么做? 我尝试过使用PyPDF2,但每次我尝试使用extractText()从任何页面提取文本