问题：

从PDF中提取不可见行的表格

唐裕

2023-03-14

问题陈述：

我有一个PDF的结构像表格，但行是不可见的。请参阅下面的示例：

上图是我的表格在其中一个PDF页面中的样子。

我的研究

如何使用Python从PDF中提取表作为文本？--看了这道题，看了所有的答案。没有帮助

tabula：尝试了tabula API，但它只是提取标题而不是文本，可能是因为没有行。

我可以将整个pdf转换成文本，然后尝试用regex或数据操作来提取它。但这可能是非常乏味和耗时的。而且，随着PDF的改变，整个编码必须重新进行。

问

他们的API或Python包可以帮助我做到这一点（Windows和Python3.x)吗？

共有1个答案

龙洛城

2023-03-14

您需要使用一个软件包，为您提供PDF中文本的X坐标和Y坐标。PyMuPDF或pdfminer将是我的建议。然后，您需要以编程方式确定您遇到的每个文本块在哪一行和哪列中。

类似资料：

从PDF中提取不可选择的内容

我正在使用Apache PDFBox从PDF文件中提取页面，我找不到一种方法来提取不可选择的内容（文本或图像）。有了可从PDF文件中选择的内容，就没有问题了。请注意，所讨论的PDF文件在复制内容方面没有任何限制，至少从我在文件的“文档限制摘要”中看到的是这样的：它们都允许“内容复制”和“内容复制以供访问”！在同一个PDF文件中，有可选择的内容，也有不可选择的其他部分。发生的情况是，提取的页面带有
使用PDFBOX从PDF中获取可见签名？

是否可以用开放源码软件库pdfbox提取已签名PDF的可见签名（图像）？工作流： null 像下面这样的oop风格的东西会很棒：找到了类PDSignature和如何签署一个PDF，但没有解决方案提取一个可见的签名作为图像。
PDF表格提取

我有（相同的）数据保存为GIF图像文件和PDF文件，我想将其解析为超文本标记语言或XML。这些数据实际上是我大学自助餐厅的菜单。这意味着每周必须解析一个新版本的文件！一般来说，这些文件包含一些页眉和页脚文本，以及中间充满其他数据的表格。我读过一些关于stackoverflow的帖子，我也开始尝试将表格数据解析为超文本语言标记/XML： PDF格式 PDFBox||iText（Java）谷歌文档导
从PDF python提取/识别表

问题内容：是否有任何支持表识别和提取的开源库？我的意思是：识别表结构存在根据内容对表格进行分类以有用的输出格式（例如JSON / CSV等）从表中提取数据。我浏览了有关此主题的类似问题，发现以下内容： PDFMiner解决了问题3，但似乎要求用户向PDFMiner指定每个表都存在表结构的地方（如果我错了，请纠正我） pdf-table-extract尝试解决问题1，但根据“待办事项”列
使用pdfbox从pdf中删除不可见的文本

问题内容：链接到pdf 当我尝试从上面的pdf中提取文本时，我混合了在evince查看器中不可见的文本和可见的文本。此外，某些所需的文本缺少查看器中未缺少的字符，例如“ FALCONS”中的“ S”和许多缺少的“ 1/2”字符。我认为这是由于来自不可见文本的干扰，因为在查看器中突出显示pdf时，可以看到不可见文本与可见文本重叠。有没有办法删除不可见的文字？还是有其他解决方案？码：输出（粗体
使用pdfbox从pdf中删除不可见文本

链接到pdf 当我尝试从上面的pdf中提取文本时，我得到了在evince viewer中不可见的文本和可见的文本的混合。此外，一些所需的文本缺少查看器中没有缺少的字符，例如，“FALCONS”中的“S”和许多缺少的“½”字符。我认为这是由于不可见文本的干扰，因为在查看器中突出显示pdf时，可以看到不可见文本与可见文本重叠。有没有办法去掉不可见的文字？还是有别的解决办法？代码：输出（粗体文本为

从PDF中提取不可见行的表格

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档