当前位置: 首页 > 知识库问答 >
问题:

PDF表格提取

凌意
2023-03-14

我有(相同的)数据保存为GIF图像文件和PDF文件,我想将其解析为超文本标记语言或XML。这些数据实际上是我大学自助餐厅的菜单。这意味着每周必须解析一个新版本的文件!一般来说,这些文件包含一些页眉和页脚文本,以及中间充满其他数据的表格。我读过一些关于stackoverflow的帖子,我也开始尝试将表格数据解析为超文本语言标记/XML:

PDF格式

  • PDFBox||iText(Java)
  • 谷歌文档导入
  • PDF2HTML||PDF2表格

GIF

  • Tesseract光学字符识别

我用PDFBox解析PDF文件得到了最好的结果,但是(随着菜单每周变化),它仍然不够可靠。我收到的超文本标记语言包括有时更多,有时更少的“段落”(

这就是为什么我想知道是否有其他方法可以做到这一点?


共有3个答案

汪和悌
2023-03-14

您可以使用Camelot从您的PDF中提取表格并将其导出到超文本标记语言文件。还支持CSV、Excel和JSON。您可以在以下位置查看留档:http://camelot-py.readthedocs.io.与其他开源表格提取工具和库相比,它提供了更准确的结果。这是一个比较。

您可以使用下面的代码片段继续您的任务:

>>> import camelot
>>> tables = camelot.read_pdf('file.pdf')
>>> type(tables[0].df)
<class 'pandas.core.frame.DataFrame'>
>>> tables[0].to_html('file.html')

免责声明:我是图书馆的作者。

经博延
2023-03-14

我已经实现了自己的算法(它的名字是traprange)来解析pdf文件中的表格数据

以下是一些示例pdf文件和结果:

  1. 输入文件:sample-1.pdf,结果:sample-1.html
  2. 输入文件:sample-4.pdf,结果:sample-4.html

访问我在traprange的项目页面

或我在陷阱范围的文章

邹海超
2023-03-14

Tabula是从任意PDF中提取CSV/TSV表的JRuby Web界面上的一个很好的开始。

 类似资料:
  • 我已经研究了从PDF进行文本提取/数据提取,并使用了其他一些堆栈溢出答案来寻求帮助,我设置的是Tika通过自定义ContentHandlerDecorator解析pdf,该自定义ContentHandlerDecorator使用sax事件来解析内容。我遇到了一个问题,虽然在 PDF 查看器中查看 pdf 时包含一个按行和列排列的数据表,但该信息似乎没有从 pdf 中提取,或者我没有看到如何使用 t

  • 问题陈述: 我有一个PDF的结构像表格,但行是不可见的。请参阅下面的示例: 上图是我的表格在其中一个PDF页面中的样子。 我的研究 > 如何使用Python从PDF中提取表作为文本?--看了这道题,看了所有的答案。没有帮助 tabula:尝试了tabula API,但它只是提取标题而不是文本,可能是因为没有行。 我可以将整个pdf转换成文本,然后尝试用regex或数据操作来提取它。但这可能是非常乏

  • 问题内容: 我有一堆PDF-可能是数百或数千。它们的格式并非全部相同,但是它们中的任何一个都可以具有一个或多个表,这些表包含我想收集到单独数据库中的有趣信息。 当然,我知道我必须写点东西才能做到这一点。Perl是我的选择-也许是Java。只要是免费的,我就不在乎什么语言(或者免费试用,以确保它适合我的目的)。 我正在查看CAM :: Parse(使用Strawberry Perl),但是我不确定如

  • 以下是从PDF中提取内容和元数据的程序。 import java.io.File; import java.io.FileInputStream; import java.io.IOException; import org.apache.tika.exception.TikaException; import org.apache.tika.metadata.Metadata; import o

  • 问题内容: 是否有任何支持表识别和提取的开源库? 我的意思是: 识别表结构存在 根据内容对表格进行分类 以有用的输出格式(例如JSON / CSV等)从表中提取数据。 我浏览了有关此主题的类似问题,发现以下内容: PDFMiner解决了问题3,但似乎要求用户向PDFMiner指定每个表都存在表结构的地方(如果我错了,请纠正我) pdf-table-extract尝试解决问题1,但根据“待办事项”列

  • 我有关于从PDF文件中提取数据的查询。我有一个PDF文件,其中包含多个可用的数据表。我想从需要的表内容中提取数据。 如何从 PDF 文件中提取表格数据? 如何使用 iText/PDFBox 执行此操作?