环境搭建:
export
PATH=$PATH:
/opt/tesseract/bin
(这样导入环境变量在注销当前登录后就失效了。要想永久生效,需要把这行命令添加到环境变量的文件里。有两个文件可 选:“/etc/profile”和用户主目录下的“.bash_profile”,“/etc/profile”对系统里所有用户都有效,用户主目录下 的“.bash_profile”只对这个用户有效。注:后两种方式需要注销系统重新登陆后才生效)
到http://zh.osdn.jp/projects/sfnet_tesseract-ocr-alt/downloads/eng.traineddata.gz去下载最新的eng.traineddata.gz文件,把解压后的eng.traineddata放到Tesseract的安装目录下(我刚才安装到了/opt/tesseract,所以就把eng.traineddata放到/opt/tesseract/share/tessdata/目录下),注意,虽然tesseract的svn trunk里也有这个文件,但那个不能用,会报以下error
1
|
actual_tessdata_num_entries_ <= TESSDATA_NUM_ENTRIES:Error:Assert failed: in file tessdatamanager.cpp, line 55
|
错误,详见:http://www.uluga.ubuntuforums.org/showthread.php?p=10248384
试一试是否安装成功:
安装后,pytesser目录下有个“phototest.tif”图片文件作为测试用,直接在目录下写一个python脚本进行测试:
1
2
3
4
|
from pytesser import *
im = Image. open ( 'phototest.tif' )
text = image_to_string(im)
print text
|
运行:
1
|
[root@mobdev87 ~#] python img_to_text.py 2> /dev/null
|