当前位置：首页 > 面试题库 >

从PDF python提取/识别表

江育

2023-03-14

问题内容：

是否有任何支持表识别和提取的开源库？

我的意思是：

识别表结构存在
根据内容对表格进行分类
以有用的输出格式（例如JSON / CSV等）从表中提取数据。

我浏览了有关此主题的类似问题，发现以下内容：

PDFMiner解决了问题3，但似乎要求用户向PDFMiner指定每个表都存在表结构的地方（如果我错了，请纠正我）
pdf-table-extract尝试解决问题1，但根据“待办事项”列表，当前无法识别由空格分隔的表。这是一个问题，因为我的PDF中的所有表格都由空格分隔！

目前，我认为我将不得不花费大量时间来开发机器学习解决方案以从PDF识别表结构。因此，任何替代方法都将受到欢迎！

问题答案：

您绝对应该看看我的这个答案：

从PDF文件集中提取表格内容

并查看其中包含的所有链接。

Tabula / TabulaPDF是目前可用于PDF抓取的最佳表格提取工具。

类似资料：

使用java从pdf中识别和提取表

我有不同类型的pdf，其中包含多个内容，如文本，表格等。该表可以存在于pdf的任何位置（顶部，中间，底部）。我只想提取表数据（不。的列，没有。行数到目前为止我所做的工作：- 1.我使用了iText java API来读取和提取。使用以下代码：- pdftextextractor . gettextfrompage 但它只是以文本形式返回数据。没有得到任何线索来确定表格在pdf中的位置以及如何从该
Azure表单识别器表未正确提取

我在用https://docs.microsoft.com/en-us/azure/cognitive-services/form-recognizer/quickstarts/curl-train-extract在不使用标签的情况下构建培训模型。我遇到的问题是，当我通过模型运行一个文件（该文件用于训练模型）时，它没有拾取“表”部分。我的意思是，没有“表”节点。据我所见，它应该能够将其构建为J
使用Azure表单识别器提取PDF表数据

我正在使用来自识别器的Azure进行发票处理项目。所有发票均为PDF格式。我正在使用带有标签的自定义表单识别器。我可以从PDF中提取一些数据，如发票号、发票日期、金额等，但我想使用Azure Form Recognitor从PDF中提取表格数据，但它无法正确读取表格。我已经标记了我需要的单元格，当表中的行数增加时，它会正确读取列，但是它无法将每行的值彼此分开，并将整列作为单个值返回。我试图提供
AWS-识别Lambda从DynamoDB流读取的数据

我有一个启用/配置了TTL和DynamoDB Streams的DynamoDB表。我想实现一个lambda函数，该函数将从DynamoDB流中读取TTL删除的数据，并将其转发给Kinesis Firehose或S3（考虑到成本，我需要决定哪一个更好）。是否有任何标志/属性有助于识别TTL删除记录已被某些lambda函数读取/处理？例如，我在DynamoDB流中有10条记录，一个lambda函数
从Firebase读取数据时未识别的PropertyException

我正在尝试读取存储在Firebase数据库中的值。这就是数据库的样子： URL: 现在，从Android端，这就是我尝试检索数据的方式：
无法使用Azure表单识别器从身份证中提取键值对信息

我正在使用表单识别器客户端库。NET从一个国家的国民身份证中提取数据。但它似乎无法从卡中获取键值对。我跟着https://docs.microsoft.com/en-us/azure/cognitive-services/form-recognizer/quickstarts/dotnet-sdk辅导的我发现只有一个键值对，值数组包含所有的标签/文本（键和值）。我需要用另一种方法从身份证中提取

相关阅读

从点的数组列表中的java圆识别在识别为9的地方无法识别09 从contentEditable div提取文本从HTML Java提取文本从文本中提取JSON

相关文章

Tableau提取数据 PDFBox提取图像用Python做一个人脸识别系统 GCC自动识别的文件扩展名（一览表）用Python做了一个猫狗识别系统

相关问答

无法使用Azure表单识别器从身份证中提取键值对信息 Mediawiki API错误：无法识别参数prop的值：提取从Azure密钥库引用提取值（托管标识）识别提交的composer包的版本？从DOCX中提取表

相关工具

iOS 语音识别讯飞语音识别树洞 OCR 文字识别 ReKognition云端人脸识别API 利用CoreImage进行人脸识别

相关文档

Linkface 人脸识别技术帮助文档初识 Spring Security 认识现代 WebGIS Databricks Spark 知识库 Git 知识大全