pytesser，图片文本识别工具

富钧

2023-12-01

环境搭建：

Linux下安装python就不说了，这里主要说如何安装pytesser，PIL和Tesseract

1.检查系统是否已经安装以下库：

libpng ， libjpeg ，libtiff，zlib-dev

#yum list | grep libpng

#yum list | grep libjpeg

#yum list | grep libtiff

#yum list | grep zlib

没安装上就安装：

#yum install libpng

#yum install libjpeg

#yum install libtiff

#yum install zlib

2.安装Tesseract：

下载最新版Tesseract，下载地址https://github.com/tesseract-ocr/tesseract/archive/master.zip 我下载的是3.0版本。

解压压缩包：

#tar -zxvf tesseract-3.00.tar.gz

进入解压后的文件夹：

#cd tesseract-3.00

安装：

#./configure --prefix=/opt/tesseract #使用--prefix 来指定安装的目录,我这里的安装目录是/opt/tesseract

#make

#make install

安装完成后要配置PATH，将tesseract的运行脚本加到环境变量中

export PATH=$PATH:/opt/tesseract/bin

（这样导入环境变量在注销当前登录后就失效了。要想永久生效，需要把这行命令添加到环境变量的文件里。有两个文件可选：“/etc/profile”和用户主目录下的“.bash_profile”，“/etc/profile”对系统里所有用户都有效，用户主目录下的“.bash_profile”只对这个用户有效。注：后两种方式需要注销系统重新登陆后才生效）

到http://zh.osdn.jp/projects/sfnet_tesseract-ocr-alt/downloads/eng.traineddata.gz去下载最新的eng.traineddata.gz文件，把解压后的eng.traineddata放到Tesseract的安装目录下(我刚才安装到了/opt/tesseract，所以就把eng.traineddata放到/opt/tesseract/share/tessdata/目录下)，注意，虽然tesseract的svn trunk里也有这个文件，但那个不能用，会报以下error

1	`actual_tessdata_num_entries_ <= TESSDATA_NUM_ENTRIES:Error:Assert failed:in` `file` `tessdatamanager.cpp, line 55`

错误，详见：http://www.uluga.ubuntuforums.org/showthread.php?p=10248384

试一试是否安装成功：

[root@mobdev87 ~#] tesseract

Usage:tesseract imagename outputbase [-l lang] [configfile [[+|-]varfile]...]

说明安装成功了。

3.安装PIL：

到PIL首页下载适合你的python版本的PIL：http://www.pythonware.com/products/pil/

我python是2.7版本的，下载地址是：http://effbot.org/downloads/Imaging-1.1.7.tar.gz

解压压缩包：

#tar -zxvf Imaging-1.1.7.tar.gz

进入解压后的文件夹：

#cd Imaging-1.1.7

安装：

#python setup.py install

4.安装pytesser：

下载pytesser：http://pytesser.googlecode.com/files/pytesser_v0.0.1.zip 目前只有一个版本。

解压压缩包：

#unzip pytesser_v0.0.1.zip

建议创建一个文件夹，把压缩包放到文件夹里在解压，因为直接使用unzip来解压会把压缩包里的东西解压到当前目录，不易管理。

安装后，pytesser目录下有个“phototest.tif”图片文件作为测试用，直接在目录下写一个python脚本进行测试：

建立一个img_to_text.py文件，代码如下：

from pytesser import *

im = Image.open('phototest.tif')

text = image_to_string(im)

print text

运行：

1	`[root@mobdev87 ~#] python` img_to_text.py `2>/dev/null`

结果为：

Tesseract Open Source OCR Engine with LibTiff

12 pt

Anai Amazmgw few dmcotheques provide lukeboxes

courier: Amazingly few dlsconheques provide jukeboxes

mme; Amazmgxy few d,m¢hEquES pm/,de ,meboxes

24 pt:

Arial: Amazingly few discotheques

provide jukeboxes.

Courier : Amazingly few

digcothequee provide

jukeboxee .

Times: _A111ZlZi11gl§' few discotheques provide

jukeboxes.

文章参考：

http://www.oschina.net/question/54100_59400

http://blog.sina.com.cn/s/blog_a4e327c201011rzs.html

Job Done！

pytesser，图片文本识别工具

相关阅读

相关文章

相关问答

相关文档