当前位置: 首页 > 知识库问答 >
问题:

Tesseract运行错误

史朗
2023-03-14

我在linux上运行tesseract ocr引擎时遇到了一个问题。我下载了RUS语言数据并将其放入tessdata目录(/usr/local/share/tessdata)。当我尝试使用命令<code>tesseract blob运行tesseract时。jpg out-l rus</code>,它显示一个错误:

Error opening data file /usr/local/share/tessdata/eng.traineddata

Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.

Failed loading language eng
Tesseract couldn't load any languages!

Could not initialize tesseract.

根据编译指南,我使用导出TESSDATA_PREFIX='/usr/本地/共享/'来指向我的tessdata目录。也许我应该编辑任何配置文件?泰瑟拉克特尝试加载“eng”数据文件而不是“rus”。

屏幕截图:http://i.stack.imgur.com/I0Guc.png

共有3个答案

商品
2023-03-14

我在Windows机器上也有这个错误。

我的解决方案。

1)从https://github.com/tesseract-ocr/tessdata/tree/3.04.00下载您的语言文件

比如对于eng,我下载了所有带eng前缀的文件。

2) 将它们放入某个文件夹内的tessdata目录中。将此文件夹作为TESSDATA_PREFIX添加到系统路径变量中。

结果将是系统环境:TESSDATA_PREFIX =D:/Java/OCR 和 OCR 文件夹具有包含语言文件的镶嵌数据。

这是目录的屏幕截图:

班浩皛
2023-03-14

最简单的方法是安装所需的包:

sudo apt-get install tesseract-ocr-eng  #for english
sudo apt-get install tesseract-ocr-tam  #for tamil
sudo apt-get install tesseract-ocr-deu  #for deutsch (German)

正如您所注意到的,它为其他语言(即tesseract-ocr-fra)开辟了道路。

楚彦
2023-03-14

你可以抓取eng.traineddataGithub:

wget https://github.com/tesseract-ocr/tessdata/raw/main/eng.traineddata

检查https://github.com/tesseract-ocr/tessdata训练语言数据的完整列表。

当您抓取文件时,将它们移动到< code >/usr/local/share/Tess data 文件夹。警告:一些Linux发行版(如openSUSE和Ubuntu)可能会在< code>/usr/share/tessdata中期待它。

# If you got the data from Google, unzip it first!
gunzip eng.traineddata.gz 
# Move the data
sudo mv -v eng.traineddata /usr/local/share/tessdata/
 类似资料:
  • 我收到了来自tesseract的5 MB大小图像的以下错误。 Tesseract开源OCR引擎v3.01与Leptonica第0页图像太大:(39667,56133)处理过程中出现错误。 文件大小是否有限制,或者是否有解决此问题的参数。 感谢您的帮助。

  • 我希望能够从图像中识别数字。所以我一直在玩tesseract和Python。我研究了如何准备图像,并尝试在它上运行tesseract,我必须说,我对我的数字被识别得如此糟糕感到非常失望。我尝试用OpenCV准备我的图像,并认为我做得很好(见下面的示例),但tesseract在试图识别我的图像时有很多错误。我是不是期望太高了?但是当我看到这些示例图像时,我认为tesseract应该可以轻松地识别这些

  • Tesseract OCR 该软件包包含一个OCR引擎 -  libtesseract和一个命令行程序 -  tesseract。 Tesseract 4增加了一个基于OCR引擎的新神经网络(LSTM),该引擎专注于线路识别,但仍然支持Tesseract 3的传统Tesseract OCR引擎,该引擎通过识别字符模式来工作。通过使用Legacy OCR Engine模式(--oem 0)启用与Te

  • Python-tesseract 是 Tesseract OCR 的 Python 封装包,可作常用的图片文件读取和解码。 示例代码: import cv2.cv as cv import tesseract api = tesseract.TessBaseAPI() api.Init(".","eng",tesseract.OEM_DEFAULT) api.SetPageSegMode(tess

  • 我有一个在docker容器中运行的spring-boot应用程序,其中安装了tesseract。 在Java程序中,我使用opencv预处理图像,如下所示 但是运行 给出错误: 图像太大: (1, 146327) 知道我哪里做错了吗?奇怪的是文件大小只有146kb,所以我不知道为什么宇宙魔方认为它太大了? 此外,如果我删除adaptiveThreshold步骤并直接在mat上执行<code>ime

  • 问题内容: 我是mysql和jdbc的新手,但出现此标题错误。我整天都在搜索,找不到适合我的解决方案。 我尝试过的操作:卸载/重新安装mysql,将mysql-connector- java-5.1.25-bin.jar和ojdbc7.jar复制粘贴到与我要运行的.class文件相同的位置,然后将该程序重建在其他目录中,可能还有其他几件事。 我正在使用notepad ++进行编码,并使用Windo