我在linux上运行tesseract ocr引擎时遇到了一个问题。我下载了RUS语言数据并将其放入tessdata目录(/usr/local/share/tessdata)。当我尝试使用命令<code>tesseract blob运行tesseract时。jpg out-l rus</code>,它显示一个错误:
Error opening data file /usr/local/share/tessdata/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.
Failed loading language eng
Tesseract couldn't load any languages!
Could not initialize tesseract.
根据编译指南,我使用导出TESSDATA_PREFIX='/usr/本地/共享/'
来指向我的tessdata目录。也许我应该编辑任何配置文件?泰瑟拉克特尝试加载“eng”数据文件而不是“rus”。
屏幕截图:http://i.stack.imgur.com/I0Guc.png
我在Windows机器上也有这个错误。
我的解决方案。
1)从https://github.com/tesseract-ocr/tessdata/tree/3.04.00下载您的语言文件
比如对于eng,我下载了所有带eng前缀的文件。
2) 将它们放入某个文件夹内的tessdata目录中。将此文件夹作为TESSDATA_PREFIX添加到系统路径变量中。
结果将是系统环境:TESSDATA_PREFIX =D:/Java/OCR 和 OCR 文件夹具有包含语言文件的镶嵌数据。
这是目录的屏幕截图:
最简单的方法是安装所需的包:
sudo apt-get install tesseract-ocr-eng #for english
sudo apt-get install tesseract-ocr-tam #for tamil
sudo apt-get install tesseract-ocr-deu #for deutsch (German)
正如您所注意到的,它为其他语言(即tesseract-ocr-fra)开辟了道路。
你可以抓取eng.traineddata
Github:
wget https://github.com/tesseract-ocr/tessdata/raw/main/eng.traineddata
检查https://github.com/tesseract-ocr/tessdata训练语言数据的完整列表。
当您抓取文件时,将它们移动到< code >/usr/local/share/Tess data 文件夹。警告:一些Linux发行版(如openSUSE和Ubuntu)可能会在< code>/usr/share/tessdata中期待它。
# If you got the data from Google, unzip it first!
gunzip eng.traineddata.gz
# Move the data
sudo mv -v eng.traineddata /usr/local/share/tessdata/
我收到了来自tesseract的5 MB大小图像的以下错误。 Tesseract开源OCR引擎v3.01与Leptonica第0页图像太大:(39667,56133)处理过程中出现错误。 文件大小是否有限制,或者是否有解决此问题的参数。 感谢您的帮助。
我希望能够从图像中识别数字。所以我一直在玩tesseract和Python。我研究了如何准备图像,并尝试在它上运行tesseract,我必须说,我对我的数字被识别得如此糟糕感到非常失望。我尝试用OpenCV准备我的图像,并认为我做得很好(见下面的示例),但tesseract在试图识别我的图像时有很多错误。我是不是期望太高了?但是当我看到这些示例图像时,我认为tesseract应该可以轻松地识别这些
Tesseract OCR 该软件包包含一个OCR引擎 - libtesseract和一个命令行程序 - tesseract。 Tesseract 4增加了一个基于OCR引擎的新神经网络(LSTM),该引擎专注于线路识别,但仍然支持Tesseract 3的传统Tesseract OCR引擎,该引擎通过识别字符模式来工作。通过使用Legacy OCR Engine模式(--oem 0)启用与Te
Python-tesseract 是 Tesseract OCR 的 Python 封装包,可作常用的图片文件读取和解码。 示例代码: import cv2.cv as cv import tesseract api = tesseract.TessBaseAPI() api.Init(".","eng",tesseract.OEM_DEFAULT) api.SetPageSegMode(tess
我有一个在docker容器中运行的spring-boot应用程序,其中安装了tesseract。 在Java程序中,我使用opencv预处理图像,如下所示 但是运行 给出错误: 图像太大: (1, 146327) 知道我哪里做错了吗?奇怪的是文件大小只有146kb,所以我不知道为什么宇宙魔方认为它太大了? 此外,如果我删除adaptiveThreshold步骤并直接在mat上执行<code>ime
问题内容: 我是mysql和jdbc的新手,但出现此标题错误。我整天都在搜索,找不到适合我的解决方案。 我尝试过的操作:卸载/重新安装mysql,将mysql-connector- java-5.1.25-bin.jar和ojdbc7.jar复制粘贴到与我要运行的.class文件相同的位置,然后将该程序重建在其他目录中,可能还有其他几件事。 我正在使用notepad ++进行编码,并使用Windo