当前位置: 首页 > 知识库问答 >
问题:

如何在java中使用OCR识别来自不同表单字段的表单数据?

红弘盛
2023-03-14

我有一个表单的图像,其中包含不同的字段,如名称,数字,地址等。我想从这些字段中识别数据并将其保存到数据库。现在,我的OCR工作正常,但我不知道如何从图像中提取特定的字段数据(名称,地址)用于OCR。简单地说,我想知道如何识别输出文件中的字符是来自名称字段或地址字段或任何其他字段。

共有2个答案

洪黎昕
2023-03-14

你有两个解决方案来获得你想要的数据,要么你使用@osiris的解决方案,要么你必须添加一个文本挖掘层。第一个解决方案:你得到图像并把它切成几块(包含所需数据的几块)。例如,你把图像切成两块,一块包含名称,第二块包含地址,方法是根据字段位置(X

冯德宇
2023-03-14

由于您知道不同字段所在表单的确切区域,因此可以使用一些图像处理库来裁剪图像,并仅向OCR引擎发送特定区域。

检查这个SO问题。

 类似资料:
  • 问题内容: 我正在尝试在OpenCV-Python(cv2)中实现“数字识别OCR”。它仅用于学习目的。我想学习OpenCV中的KNearest和SVM功能。 我每个数字有100个样本(即图像)。我想和他们一起训练。 示例附带一个示例。但是我仍然不知道如何使用它。我不了解样本,回复等。此外,它首先会加载txt文件,而我首先并不了解。 稍后进行搜索时,我可以在cpp样本中找到letter_recog

  • 屏幕显示我试图从扫描的身份证中提取数据,但OCR的准确性有问题。名字后面有一些额外的小字,与身份证上的常规名字混淆了。表单识别器中的OCR不准确。我尝试了计算机视觉3.0预览读取应用编程接口,它工作正常。有没有办法将新的3.0计算机视觉OCR应用编程接口与表单识别器2.0一起使用?我看到一些留档,其中提到在容器中使用表单识别器时使用计算机视觉应用编程接口?如果我们使用云表单识别器应用编程接口而不是

  • 我只是从图像中提取文本,但当我试图处理表单时,由于表单边界,该程序无法用于字符提取。如何从包含边界的表单中提取字符?

  • 当PDF包含表单字段元素时,我希望getFields().size()大于0。是否有其他使用Java和iText标识表单字段的方法?

  • 我正在使用来自识别器的Azure进行发票处理项目。所有发票均为PDF格式。我正在使用带有标签的自定义表单识别器。我可以从PDF中提取一些数据,如发票号、发票日期、金额等,但我想使用Azure Form Recognitor从PDF中提取表格数据,但它无法正确读取表格。 我已经标记了我需要的单元格,当表中的行数增加时,它会正确读取列,但是它无法将每行的值彼此分开,并将整列作为单个值返回。 我试图提供

  • 问题内容: 是否可以使用CSS禁用表单字段?我当然知道禁用的属性,但是可以在CSS规则中指定此属性吗?就像是 - 我问的原因是,我有一个应用程序,其中表单字段是自动生成的,并且字段是根据某些规则(以Javascript运行)隐藏/显示的。现在,我想扩展它以支持禁用/启用字段,但是规则的编写方式可以直接操纵表单字段的样式属性。因此,现在我必须扩展规则引擎以更改属性以及表单字段的样式,这在某种程度上似