当前位置: 首页 > 知识库问答 >
问题:

使用Azure表单识别器提取PDF表数据

荣俊
2023-03-14

我正在使用来自识别器的Azure进行发票处理项目。所有发票均为PDF格式。我正在使用带有标签的自定义表单识别器。我可以从PDF中提取一些数据,如发票号、发票日期、金额等,但我想使用Azure Form Recognitor从PDF中提取表格数据,但它无法正确读取表格。

我已经标记了我需要的单元格,当表中的行数增加时,它会正确读取列,但是它无法将每行的值彼此分开,并将整列作为单个值返回

我试图提供更多的例子,但它仍然未能检测到正确的表。有没有办法使用Azure表单识别器从PDF中正确提取表数据?

扫描表格是我们的应用程序的基本要求,它将决定我们的应用程序是否使用Azure Form Recognitor。

如果你能为我们指出正确的方向,并提供一些相关文件,那将是有益的。

谢谢

共有1个答案

吕俊才
2023-03-14

请尝试以下方法-

>

  • 不带标签的训练,看看它是否能检测并提取出你需要的表格。请看这里的快速入门-https://docs.microsoft.com/en-us/azure/cognitive-services/form-recognizer/quickstarts/python-train-extract?tabs=v2-0

    如果没有标签的train没有检测到该表,如果您使用带标签的train,并且该表没有自动检测到,那么我们还不支持以本机方式标记表。您可以尝试将表标记为键值对,作为提取值的变通方法。将表标记为键值对时,将每个单元格标记为一个值,因此对于上表,每列应有5个值-Desc1、Desc2、Desc3。。。描述5,小时1,小时2,小时3。。。5小时。在这种情况下,您需要使用最大行数的表进行训练。

    Neta-MSFT

  •  类似资料:
    • 我在用https://docs.microsoft.com/en-us/azure/cognitive-services/form-recognizer/quickstarts/curl-train-extract在不使用标签的情况下构建培训模型。 我遇到的问题是,当我通过模型运行一个文件(该文件用于训练模型)时,它没有拾取“表”部分。我的意思是,没有“表”节点。 据我所见,它应该能够将其构建为J

    • 问题内容: 是否有任何支持表识别和提取的开源库? 我的意思是: 识别表结构存在 根据内容对表格进行分类 以有用的输出格式(例如JSON / CSV等)从表中提取数据。 我浏览了有关此主题的类似问题,发现以下内容: PDFMiner解决了问题3,但似乎要求用户向PDFMiner指定每个表都存在表结构的地方(如果我错了,请纠正我) pdf-table-extract尝试解决问题1,但根据“待办事项”列

    • 我有不同类型的pdf,其中包含多个内容,如文本,表格等。该表可以存在于pdf的任何位置(顶部,中间,底部)。我只想提取表数据(不。的列,没有。行数 到目前为止我所做的工作:- 1.我使用了iText java API来读取和提取。使用以下代码:- pdftextextractor . gettextfrompage 但它只是以文本形式返回数据。没有得到任何线索来确定表格在pdf中的位置以及如何从该

    • 我正在使用表单识别器客户端库。NET从一个国家的国民身份证中提取数据。但它似乎无法从卡中获取键值对。我跟着https://docs.microsoft.com/en-us/azure/cognitive-services/form-recognizer/quickstarts/dotnet-sdk辅导的 我发现只有一个键值对,值数组包含所有的标签/文本(键和值)。 我需要用另一种方法从身份证中提取

    • 我有(相同的)数据保存为GIF图像文件和PDF文件,我想将其解析为超文本标记语言或XML。这些数据实际上是我大学自助餐厅的菜单。这意味着每周必须解析一个新版本的文件!一般来说,这些文件包含一些页眉和页脚文本,以及中间充满其他数据的表格。我读过一些关于stackoverflow的帖子,我也开始尝试将表格数据解析为超文本语言标记/XML: PDF格式 PDFBox||iText(Java) 谷歌文档导

    • 当我在调试采样器中看到时,我的变量中没有任何东西。