当前位置: 首页 > 知识库问答 >
问题:

Azure表单识别器表未正确提取

卫景明
2023-03-14

我在用https://docs.microsoft.com/en-us/azure/cognitive-services/form-recognizer/quickstarts/curl-train-extract在不使用标签的情况下构建培训模型。

我遇到的问题是,当我通过模型运行一个文件(该文件用于训练模型)时,它没有拾取“表”部分。我的意思是,没有“表”节点。

据我所见,它应该能够将其构建为JSON的一部分,但它会将其分解为超粒度OCR,例如

{
                    "key": {
                        "text": "__Tokens__34",
                        "boundingBox": null,
                        "elements": null
                    },
                    "value": {
                        "text": "2 X 3/4",
                        "boundingBox": [
                            3.1181,
                            3.7292,
                            3.5278,
                            3.7292,
                            3.5278,
                            3.8583,
                            3.1181,
                            3.8583
                        ],
                        "elements": null
                    },
                    "confidence": 1.0
                }

我是不是少了一面旗子什么的?

提前谢谢你。

共有2个答案

慎旭尧
2023-03-14

我也遇到了同样的问题,但我注意到,当我启用全文时,它会起作用

公德明
2023-03-14

没有标签的Train似乎不会自动检测到该表,请共享该表的图像,请删除任何PII信息。您也可以尝试带标签的Train或布局应用编程接口,看看它是否会自动识别该表。

 类似资料:
  • 我正在使用来自识别器的Azure进行发票处理项目。所有发票均为PDF格式。我正在使用带有标签的自定义表单识别器。我可以从PDF中提取一些数据,如发票号、发票日期、金额等,但我想使用Azure Form Recognitor从PDF中提取表格数据,但它无法正确读取表格。 我已经标记了我需要的单元格,当表中的行数增加时,它会正确读取列,但是它无法将每行的值彼此分开,并将整列作为单个值返回。 我试图提供

  • 问题内容: 是否有任何支持表识别和提取的开源库? 我的意思是: 识别表结构存在 根据内容对表格进行分类 以有用的输出格式(例如JSON / CSV等)从表中提取数据。 我浏览了有关此主题的类似问题,发现以下内容: PDFMiner解决了问题3,但似乎要求用户向PDFMiner指定每个表都存在表结构的地方(如果我错了,请纠正我) pdf-table-extract尝试解决问题1,但根据“待办事项”列

  • 我正在使用表单识别器客户端库。NET从一个国家的国民身份证中提取数据。但它似乎无法从卡中获取键值对。我跟着https://docs.microsoft.com/en-us/azure/cognitive-services/form-recognizer/quickstarts/dotnet-sdk辅导的 我发现只有一个键值对,值数组包含所有的标签/文本(键和值)。 我需要用另一种方法从身份证中提取

  • 是否支持使用表单识别器示例标签工具输入TIFF图像。https://docs.microsoft.com/en-us/azure/cognitive-services/form-recognizer/build-training-data-set#general-输入要求

  • 屏幕显示我试图从扫描的身份证中提取数据,但OCR的准确性有问题。名字后面有一些额外的小字,与身份证上的常规名字混淆了。表单识别器中的OCR不准确。我尝试了计算机视觉3.0预览读取应用编程接口,它工作正常。有没有办法将新的3.0计算机视觉OCR应用编程接口与表单识别器2.0一起使用?我看到一些留档,其中提到在容器中使用表单识别器时使用计算机视觉应用编程接口?如果我们使用云表单识别器应用编程接口而不是

  • 我试图使用带有标签工具的Azure表单识别器来训练和提取图像中的文本。根据留档: 首先,确保所有的培训文档都具有相同的格式。如果您有多种格式的表单,请根据通用格式将它们组织到子文件夹中。当您进行培训时,您需要将应用编程接口引导到子文件夹中。(https://docs.microsoft.com/en-us/azure/cognitive-services/form-recognizer/quick