当前位置: 首页 > 知识库问答 >
问题:

Tesseract训练-只有数字的新字体

胡霖
2023-03-14

所有数字都提供在一个透明背景的png文件中。如果我从它创建一个盒子文件,训练它等等-所有工作都很好!

正如你所看到的,数字是完全一样的,以及位置等等。与图像1的唯一区别是,我使用了黄色背景,从现在开始,没有什么工作了。我创建了一个框文件,我设置了与第一个图像相同的位置:

0 5 4 20 22 0
1 27 4 38 21 0
2 48 4 60 22 0
3 71 3 83 22 0
4 94 5 109 22 0
5 119 5 131 22 0
6 143 5 157 22 0
7 172 5 184 22 0
8 197 5 211 23 0
9 224 5 238 22 0

然后我训练了这个盒子,但是结果的。tr文件是完全空的。我没有在这里停下来,完成了所有其他步骤。结果字体无法使用!

所以我的问题是,如何训练tesseract识别这些数字,无论使用哪个背景?

我使用ImageMagick对图像进行预处理,我发现一个命令对各种背景都很有效。所以我想训练tesseract创建的图像,但它并不像我想象的那样工作...首先,我创建了box文件,其中大部分是空的。嗯,我用了一个网站来组织角色的位置,我花了很多时间来完美地剪裁!之后,我创建了结果。tr文件,并完成了其他训练Tesseract的工作。

最后,我得到了“traineddata”,我将该文件移动到tesseract的“tessdata”目录,并像应该使用的那样使用它:

tesseract example.jpg output -l mg

(我把新字体叫做“MG”)

好吧,不管怎样,它不能识别全部或大部分!我打开这个线程寻找帮助,直到现在没有人真正知道如何做到这一点,可悲的是....请帮帮我。

我使用和创建的整个tesseract训练文件可以在这里找到:

Tesseract培训目录(作为无zip/not compressed->查看目录的所有文件

共有1个答案

厍浩广
2023-03-14

您可以将任何颜色的图像更改为二值图像,然后使用tesseract,这样无论您使用的是什么颜色,您将始终有相同的结果。

 类似资料:
  • 我想为一个新角色训练我现有的tesseract模型。我已经在 https://github.com/tesseract-ocr/tesseract/wiki/trainingtesseract-4.00#lstmtraining-命令行 (微调?几个字符)(我用的是MAC) 但它不起作用。如果我评估(即使是在训练数据上),它也不能识别±'字符。 我安装了: 通过: 我将以下GitHub存储库克隆到

  • 我试图从图像中对ASCII字符串进行OCR识别。我正在使用Tesseract3库,但是在正确识别方面有一点问题,所以我需要用新的字符集(这是特定的)来训练它。我已经发现了这个how-to:TrainingTesseract3,但教程中有一些不必要的过程,我不需要,因为我的图像测试集很简单。我的图像数据集只包含1个行,其中每个ASCII字符在所有图像中都是相同的(没有旋转,没有缩放),但行中字符之间

  • 问题内容: 我在Mac上使用的是最新版本的Tesseract。我在一个文件夹中有一个eng.traineddata,在另一个文件夹中有一个eng.traineddata。我希望将我的训练有素的数据文件组合成一个大的训练有素的字体文件。 谁能告诉我该怎么做?我在某处读到-l命令可能是我需要的。 谢谢! 问题答案: Tesseract不在两个不同的文件夹中查找语言数据。您可以做的就是将其中之一重命名为

  • 本文向大家介绍tensorflow 固定部分参数训练,只训练部分参数的实例,包括了tensorflow 固定部分参数训练,只训练部分参数的实例的使用技巧和注意事项,需要的朋友参考一下 在使用tensorflow来训练一个模型的时候,有时候需要依靠验证集来判断模型是否已经过拟合,是否需要停止训练。 1.首先想到的是用tf.placeholder()载入不同的数据来进行计算,比如 这种方式很简单,也很

  • 我正在使用一个控制台应用程序和非常基本的Tesseract来执行数字识别。我从谷歌复制了一个图像,试图找到数字只。

  • 我一直在努力学习如何训练我的数据,即使用字符串数据实现机器学习。我所能理解的是,您可以将字符串数据类型转换为category,但我无法使用LabelEncoder。我听说,我们不应该绘制数据图并将其更改为数字数据,因为它的预测将是错误的。 以下是数据示例: 如您所见,性别(2)、已婚(3)、受抚养人(4)、教育程度(5)、自雇(6)、财产(11)、贷款状态(!2)是字符串。 某些列缺少数据,因此无