当前位置: 首页 > 知识库问答 >
问题:

绕过Tesseract预处理

公羊光明
2023-03-14

我正在使用tess4j作为来自JAVA的tesseract的包装器对图像运行一系列OCR。ocr的过程仍然需要大量的时间(有时甚至是5秒),我正在努力加快它。

我正在做我自己的图像预处理和二值化,这是没有必要的宇宙魔方做大津二值化。

我已经阅读了IOS的教程,该教程允许跳过图形处理部分,但是我无法使用tess4j找到任何内容。

这里的turial:https://github.com/gali8/Tesseract-OCR-iOS/wiki/Tips-for-Improving-OCR-Results-
“…如果您已经执行了自己的预处理/阈值设置[…],您可能希望绕过内部Tesseract阈值设置步骤。”

有谁知道我如何以一种跳过otsu二值化的方式使用tess4j(来自JAVA)?

共有1个答案

柳墨一
2023-03-14

检查tesseract-ocr参数列表以了解任何适用的设置。但是我了解到,如果你发送一个二值化的图像,宇宙魔方将跳过图像的阈值处理(源)。

 类似资料:
  • 为了用OCR库tesseract获得更好的结果,我会做一些预处理,但还不知道什么步骤可以帮助我。 我试图用15因子调整图像的大小,并应用了一个适应的阈值(见图像),但这导致了“波浪”字符,这无法用tesseract OCR库检测到。在底部,你可以通过Dropbox找到我的图像链接。原始图像大小为115x18px,字符高度为10px。 我想从背景中提取人物。什么步骤可以导致更好的结果?对于OCR部分

  • 我试图开发一个应用程序,使用Tesseract从手机摄像头拍摄的文件中识别文本。为了更好的识别,我使用OpenCV对图像进行预处理,使用高斯模糊和阈值方法进行二值化,但结果很糟糕。 我可以使用哪些其他过滤器来使图像对Tesseract更具可读性?

  • null 有些数字比其他数字更好用--例如,'1'似乎有很多麻烦。出现在“+”或“-”后面的数字通常不显示出来,“+”通常显示为“-”。我也玩了一下阈值。 最后三个部分是因为我的视频样本,我一直在画有点歪斜。我可以尝试使用一些更好的数据,我也可以尝试在标准的“letsgoDigital”朗上制作自己的训练数据。虽然我觉得我没有以最好的方式进行图像处理,但我希望得到一些指导。 我计划使用某种程度的边

  • 我试图开发一个简单的车牌识别PC应用程序(Java+OpenCV+Tess4j)。图像不是真的好(在进一步,他们将是好的)。我想为tesseract预处理图像,我被困在车牌检测(矩形检测)上。 我的脚步: 1)源图像 我用油漆从图像(第四步后)中裁剪出所需的区域,并得到: 然后我做了OCR(通过tesseract,tess4j): 而且得到了(足够好?)结果-“Y841OX EH”(几乎正确)

  • 简要描述 有些时候,通用的绕过技巧并不可行,这个时候我们就得观察缺陷点的周围环境,想想其它办法咯。“猥琐绕过”与通用绕过不 同的是,它通用性小,往往只是特例。 详细说明 1. 直接看实例点: http://qzs.qq.com/qzone/v6/custom/custom_module_proxy.html#siDomain=1&g_StyleID=aaaaaaaaaa 2. 可以看出,这是一个

  • 简要描述 关于反射型的基本东西,暂时就到这啦,如果后面有什么好的 case,再做增补。最近,有些人会问到怎么绕过浏览器的 XSS 过滤 器,所以从这节开始,给出点绕过的例子。当然这些绕过浏览器的方法,不是万能的。不同浏览器,不同场景都会存在差异。满足场景 要求时,才可以使用。 此文给出的是一个来自 sogili 分享的 chrome 下绕过过滤器的方法,在腾讯某处 XSS 上的应用。 这一类都算是