当前位置: 首页 > 工具软件 > pytesser > 使用案例 >

pytesser,图片文本识别工具

富钧
2023-12-01

环境搭建:

    Linux下安装python就不说了,这里主要说如何安装pytesser,PIL和Tesseract

    1.检查系统是否已经安装以下库:

            libpng   , libjpeg ,libtiff,zlib-dev

            #yum list | grep libpng

            #yum list | grep libjpeg

            #yum list | grep libtiff

            #yum list | grep zlib

       没安装上就安装:

           #yum install libpng

           #yum install libjpeg

           #yum install libtiff

           #yum install zlib

 

     2.安装Tesseract:

          下载最新版Tesseract,下载地址https://github.com/tesseract-ocr/tesseract/archive/master.zip 我下载的是3.0版本。

          解压压缩包:

          #tar -zxvf tesseract-3.00.tar.gz

          进入解压后的文件夹:

          #cd tesseract-3.00

         安装: 

          #./configure --prefix=/opt/tesseract  #使用--prefix 来指定安装的目录,我这里的安装目录是/opt/tesseract

          #make

          #make install

        安装完成后要配置PATH,将tesseract的运行脚本加到环境变量中

                export PATH=$PATH:/opt/tesseract/bin

(这样导入环境变量在注销当前登录后就失效了。要想永久生效,需要把这行命令添加到环境变量的文件里。有两个文件可 选:“/etc/profile”和用户主目录下的“.bash_profile”,“/etc/profile”对系统里所有用户都有效,用户主目录下 的“.bash_profile”只对这个用户有效。注:后两种方式需要注销系统重新登陆后才生效

        http://zh.osdn.jp/projects/sfnet_tesseract-ocr-alt/downloads/eng.traineddata.gz去下载最新的eng.traineddata.gz文件,把解压后的eng.traineddata放到Tesseract的安装目录下(我刚才安装到了/opt/tesseract,所以就把eng.traineddata放到/opt/tesseract/share/tessdata/目录下),注意,虽然tesseract的svn trunk里也有这个文件,但那个不能用,会报以下error

1
actual_tessdata_num_entries_ <= TESSDATA_NUM_ENTRIES:Error:Assert failed:in file tessdatamanager.cpp, line 55

错误,详见:http://www.uluga.ubuntuforums.org/showthread.php?p=10248384

试一试是否安装成功:

[root@mobdev87 ~#] tesseract
Usage:tesseract imagename outputbase [-l lang] [configfile [[+|-]varfile]...]
说明安装成功了。

  3.安装PIL:

      到PIL首页下载适合你的python版本的PIL:http://www.pythonware.com/products/pil/

        我python是2.7版本的,下载地址是:http://effbot.org/downloads/Imaging-1.1.7.tar.gz

        解压压缩包:

        #tar -zxvf Imaging-1.1.7.tar.gz

        进入解压后的文件夹:

        #cd Imaging-1.1.7

       安装:

       #python setup.py install

      

 4.安装pytesser:

     下载pytesser:http://pytesser.googlecode.com/files/pytesser_v0.0.1.zip 目前只有一个版本。

     解压压缩包:

     #unzip pytesser_v0.0.1.zip

     建议创建一个文件夹,把压缩包放到文件夹里在解压,因为直接使用unzip来解压会把压缩包里的东西解压到当前目录,不易管理。

安装后,pytesser目录下有个“phototest.tif”图片文件作为测试用,直接在目录下写一个python脚本进行测试:

建立一个img_to_text.py文件,代码如下:
1
2
3
4
from pytesser import *
im = Image.open('phototest.tif')
text = image_to_string(im)
print text

运行:

1
[root@mobdev87 ~#] python img_to_text.py 2>/dev/null
结果为:
Tesseract Open Source OCR Engine with LibTiff
12 pt
Anai Amazmgw few dmcotheques provide lukeboxes
courier: Amazingly few dlsconheques provide jukeboxes
mme; Amazmgxy few d,m¢hEquES pm/,de ,meboxes
24 pt:
Arial: Amazingly few discotheques
provide jukeboxes.
Courier : Amazingly few
digcothequee provide
jukeboxee .
Times: _A111ZlZi11gl§' few discotheques provide
jukeboxes.

文章参考:
Job Done!
 类似资料: