问题：

使用Azure表单识别器提取PDF表数据

荣俊

2023-03-14

我正在使用来自识别器的Azure进行发票处理项目。所有发票均为PDF格式。我正在使用带有标签的自定义表单识别器。我可以从PDF中提取一些数据，如发票号、发票日期、金额等，但我想使用Azure Form Recognitor从PDF中提取表格数据，但它无法正确读取表格。

我已经标记了我需要的单元格，当表中的行数增加时，它会正确读取列，但是它无法将每行的值彼此分开，并将整列作为单个值返回。

我试图提供更多的例子，但它仍然未能检测到正确的表。有没有办法使用Azure表单识别器从PDF中正确提取表数据？

扫描表格是我们的应用程序的基本要求，它将决定我们的应用程序是否使用Azure Form Recognitor。

如果你能为我们指出正确的方向，并提供一些相关文件，那将是有益的。

谢谢

共有1个答案

吕俊才

2023-03-14

请尝试以下方法-

不带标签的训练，看看它是否能检测并提取出你需要的表格。请看这里的快速入门-https://docs.microsoft.com/en-us/azure/cognitive-services/form-recognizer/quickstarts/python-train-extract?tabs=v2-0

如果没有标签的train没有检测到该表，如果您使用带标签的train，并且该表没有自动检测到，那么我们还不支持以本机方式标记表。您可以尝试将表标记为键值对，作为提取值的变通方法。将表标记为键值对时，将每个单元格标记为一个值，因此对于上表，每列应有5个值-Desc1、Desc2、Desc3。。。描述5，小时1，小时2，小时3。。。5小时。在这种情况下，您需要使用最大行数的表进行训练。

Neta-MSFT

类似资料：

Azure表单识别器表未正确提取

我在用https://docs.microsoft.com/en-us/azure/cognitive-services/form-recognizer/quickstarts/curl-train-extract在不使用标签的情况下构建培训模型。我遇到的问题是，当我通过模型运行一个文件（该文件用于训练模型）时，它没有拾取“表”部分。我的意思是，没有“表”节点。据我所见，它应该能够将其构建为J
从PDF python提取/识别表

问题内容：是否有任何支持表识别和提取的开源库？我的意思是：识别表结构存在根据内容对表格进行分类以有用的输出格式（例如JSON / CSV等）从表中提取数据。我浏览了有关此主题的类似问题，发现以下内容： PDFMiner解决了问题3，但似乎要求用户向PDFMiner指定每个表都存在表结构的地方（如果我错了，请纠正我） pdf-table-extract尝试解决问题1，但根据“待办事项”列
使用java从pdf中识别和提取表

我有不同类型的pdf，其中包含多个内容，如文本，表格等。该表可以存在于pdf的任何位置（顶部，中间，底部）。我只想提取表数据（不。的列，没有。行数到目前为止我所做的工作：- 1.我使用了iText java API来读取和提取。使用以下代码：- pdftextextractor . gettextfrompage 但它只是以文本形式返回数据。没有得到任何线索来确定表格在pdf中的位置以及如何从该
无法使用Azure表单识别器从身份证中提取键值对信息

我正在使用表单识别器客户端库。NET从一个国家的国民身份证中提取数据。但它似乎无法从卡中获取键值对。我跟着https://docs.microsoft.com/en-us/azure/cognitive-services/form-recognizer/quickstarts/dotnet-sdk辅导的我发现只有一个键值对，值数组包含所有的标签/文本（键和值）。我需要用另一种方法从身份证中提取
PDF表格提取

我有（相同的）数据保存为GIF图像文件和PDF文件，我想将其解析为超文本标记语言或XML。这些数据实际上是我大学自助餐厅的菜单。这意味着每周必须解析一个新版本的文件！一般来说，这些文件包含一些页眉和页脚文本，以及中间充满其他数据的表格。我读过一些关于stackoverflow的帖子，我也开始尝试将表格数据解析为超文本语言标记/XML： PDF格式 PDFBox||iText（Java）谷歌文档导
无法使用正则表达式提取器提取jmeter中已编码的PDF数据？

当我在调试采样器中看到时，我的变量中没有任何东西。

使用Azure表单识别器提取PDF表数据

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档