问题：

PDF表格提取

凌意

2023-03-14

我有（相同的）数据保存为GIF图像文件和PDF文件，我想将其解析为超文本标记语言或XML。这些数据实际上是我大学自助餐厅的菜单。这意味着每周必须解析一个新版本的文件！一般来说，这些文件包含一些页眉和页脚文本，以及中间充满其他数据的表格。我读过一些关于stackoverflow的帖子，我也开始尝试将表格数据解析为超文本语言标记/XML：

PDF格式

PDFBox||iText（Java）
谷歌文档导入
PDF2HTML||PDF2表格

GIF

Tesseract光学字符识别

我用PDFBox解析PDF文件得到了最好的结果，但是（随着菜单每周变化），它仍然不够可靠。我收到的超文本标记语言包括有时更多，有时更少的“段落”（

这就是为什么我想知道是否有其他方法可以做到这一点？

共有3个答案

汪和悌

2023-03-14

您可以使用Camelot从您的PDF中提取表格并将其导出到超文本标记语言文件。还支持CSV、Excel和JSON。您可以在以下位置查看留档：http://camelot-py.readthedocs.io.与其他开源表格提取工具和库相比，它提供了更准确的结果。这是一个比较。

您可以使用下面的代码片段继续您的任务:

>>> import camelot
>>> tables = camelot.read_pdf('file.pdf')
>>> type(tables[0].df)
<class 'pandas.core.frame.DataFrame'>
>>> tables[0].to_html('file.html')

免责声明：我是图书馆的作者。

经博延

2023-03-14

我已经实现了自己的算法（它的名字是traprange）来解析pdf文件中的表格数据。

以下是一些示例pdf文件和结果:

输入文件：sample-1.pdf，结果：sample-1.html
输入文件：sample-4.pdf，结果：sample-4.html

访问我在traprange的项目页面

或我在陷阱范围的文章

邹海超

2023-03-14

Tabula是从任意PDF中提取CSV/TSV表的JRuby Web界面上的一个很好的开始。

类似资料：

PDF 提取中缺少表格布局信息

我已经研究了从PDF进行文本提取/数据提取，并使用了其他一些堆栈溢出答案来寻求帮助，我设置的是Tika通过自定义ContentHandlerDecorator解析pdf，该自定义ContentHandlerDecorator使用sax事件来解析内容。我遇到了一个问题，虽然在 PDF 查看器中查看 pdf 时包含一个按行和列排列的数据表，但该信息似乎没有从 pdf 中提取，或者我没有看到如何使用 t
从PDF中提取不可见行的表格

问题陈述：我有一个PDF的结构像表格，但行是不可见的。请参阅下面的示例：上图是我的表格在其中一个PDF页面中的样子。我的研究 > 如何使用Python从PDF中提取表作为文本？--看了这道题，看了所有的答案。没有帮助 tabula：尝试了tabula API，但它只是提取标题而不是文本，可能是因为没有行。我可以将整个pdf转换成文本，然后尝试用regex或数据操作来提取它。但这可能是非常乏
从一组PDF文件中提取表格内容

问题内容：我有一堆PDF-可能是数百或数千。它们的格式并非全部相同，但是它们中的任何一个都可以具有一个或多个表，这些表包含我想收集到单独数据库中的有趣信息。当然，我知道我必须写点东西才能做到这一点。Perl是我的选择-也许是Java。只要是免费的，我就不在乎什么语言（或者免费试用，以确保它适合我的目的）。我正在查看CAM :: Parse（使用Strawberry Perl），但是我不确定如
提取PDF（Extracting PDF）

以下是从PDF中提取内容和元数据的程序。 import java.io.File; import java.io.FileInputStream; import java.io.IOException; import org.apache.tika.exception.TikaException; import org.apache.tika.metadata.Metadata; import o
从PDF python提取/识别表

问题内容：是否有任何支持表识别和提取的开源库？我的意思是：识别表结构存在根据内容对表格进行分类以有用的输出格式（例如JSON / CSV等）从表中提取数据。我浏览了有关此主题的类似问题，发现以下内容： PDFMiner解决了问题3，但似乎要求用户向PDFMiner指定每个表都存在表结构的地方（如果我错了，请纠正我） pdf-table-extract尝试解决问题1，但根据“待办事项”列
如何在Java中从PDF文件中提取表格数据

我有关于从PDF文件中提取数据的查询。我有一个PDF文件，其中包含多个可用的数据表。我想从需要的表内容中提取数据。如何从 PDF 文件中提取表格数据？如何使用 iText/PDFBox 执行此操作？

PDF表格提取

共有3个答案

相关问答

相关文章

相关阅读

相关工具

相关文档