当前位置: 首页 > 知识库问答 >
问题:

使用tesseract或OpenCV进行android对象检测

濮阳翔
2023-03-14

我已经成功地将镶嵌到我的Android应用程序中,它可以读取我捕获的任何图像,但准确性非常低。但大多数时候,我在捕获后没有得到正确的文本,因为感兴趣区域周围的一些文本也会被捕获。

我想阅读的只是来自矩形区域的所有文本,准确,没有捕捉矩形的边缘。我已经做了一些研究,并在stackoverflow上发布了两次,但仍然没有得到满意的结果!

以下是我发的2个帖子:

https://stackoverflow.com/questions/16663504/extract-text-from-a-captured-image?noredirect=1#comment23973954_16663504

从机器人中捕获的图像中提取信息

我不确定是继续使用宇宙魔方还是使用openCV

共有2个答案

金亦
2023-03-14

提高 OCR 输出的解决方案是

> < li>

要么使用更多的训练数据来更好地训练它

使用一些线性过滤器过滤输入(灰度、高对比度、模糊)

在聊天中,我们发布了一些描述ocr中使用的过滤技术的链接,但没有发布示例代码。

发布的一些链接是

改进对 OCR 的输入

如何训练宇宙魔方

使用非对称过滤器的文本增强

OCR分类

令狐宏浚
2023-03-14

包括其他人的许多链接和答案,我认为后退一步并注意到光学字符识别(OCR)实际上有两个基本步骤是好的:

  • 文本检测:这是问题的标题和焦点,它涉及到在图像中定位包含文本的区域
  • 文本识别:这是实际识别发生的地方,检测到的局部图像区域被逐个字符分割并分类。这也是像Tesseract这样的工具发挥作用的地方

现在,还有两种应用OCR的常规设置:

  • 受控:这些图像是从扫描仪或类似的设备上拍摄的,目标是一个文档,像视角、比例、字体、方向、背景一致性等都非常温和
  • 非受控/场景:这些是更自然、更自然的照片,例如从相机拍摄的照片,你试图识别街道标志、商店名称等

Tesseract原样最适用于“受控”设置。一般来说,但特别是对于场景OCR,“重新训练”Tesseract不会直接提高检测,但可能会提高识别能力。

如果您正在寻求改进场景文本检测,请参阅此工作;如果您正在研究改进场景文本识别,请参阅此工作。由于您询问了检测,因此检测参考使用最大稳定极值区域 (MSER),它具有大量实现资源,例如,请参阅此处。

这里还有一个专门针对Android的文本检测项目:
https://github.com/dreamdragon/text-detection

正如许多人所指出的,请记住,识别仍然是一个开放的研究挑战。

 类似资料:
  • 问题内容: 我想使用OpenCV 2.4.1软件包随附的Tutorial 2-Basic作为起点,使用Android版OpenCV检测椭圆。请注意,我的椭圆将是一个完美的photoshop之一。 据我了解,使用“ HoughCircles”只会找到完美的(或大约)圆,因此省略了椭圆。 任何帮助将不胜感激,因为我是OpenCV的初学者 到目前为止,这是我尝试过的 如果您认为更多信息可能有用,请告诉我

  • 我试图使用OpenCV(Android)处理使用相机拍摄的图像,然后将其传递给Tesseract进行文本(数字)识别,但在图像非常(几乎没有噪声)罚款之前,我没有得到很好的结果。目前我正在对拍摄的图像执行以下处理:1。应用高斯模糊。2.自适应阈值:对图像进行二值化。3.倒置颜色使背景变黑。然后将处理后的图像传递给Tesseract。 但我没有得到好的结果。

  • 本文向大家介绍Python中使用OpenCV(CV2)对图像进行边缘检测,包括了Python中使用OpenCV(CV2)对图像进行边缘检测的使用技巧和注意事项,需要的朋友参考一下 使用的模块: 为此,我们将使用opencv-python模块,该模块为我们提供了处理图像的各种功能。 下载opencv-python opencv-python模块: opencv-python是一个python库,它将

  • 问题内容: React有很多使用PropTypes来检查道具价值的方法。我通常使用的是。但是,最近我遇到一种情况,其中我有一个对象,该对象内部将具有动态键/值。我知道每个键都应该是一个字符串(采用已知格式),每个值都应该是一个整数。即使使用自定义道具验证功能,它仍然假设您知道道具的钥匙。如何使用PropTypes检查对象/形状的键和值是否正确? 再说一遍:我至少要检查每个键的值是一个数字。理想情况

  • 我对OpenCv和tesseract相当陌生。我最近正在建立一个使用计算机视觉检测门标签的项目。希望这对视障群体有益。 该方案的思想是对输入图像进行二值化预处理,然后用canny边缘检测门牌轮廓,最后对canny边缘结果进行扩展。之后,将图像输入到tesseract,同时尝试显示用方框检测到的文本。 预期结果是文本上的绿色矩形。同时打印出文本本身。 问题是缺少矩形和文本检测失败。 我尝试过这些:

  • 我为iOS写了一个数字OCR。我有一个测试图像png与两位数5和4。我找到轮廓了。我如何在Tesseract转乘等高线? 初始化tesseract: 用于检测轮廓的函数: GitHub项目链接:https://github.com/maxpatsy/iorc