python-tesseract 是 tesseract的python封装库,能够用于验证码的识别。尤其是可以通过更改识别库的名称达到使用自己训练出来的库的目的,尤为方便。关于如何训练tesseract-ocr 的识别库见 我的另一篇博文。
下面是官方版安装python-tesseract 在CentOS6.5测试成功。
【官方安装python-tesseract】
yum groupinstall "Development Tools" -y
yum -y install wget cmake
yum -y install libjpeg-devel libpng-devel libtiff-devel zlib-devel
yum -y install gcc gcc-c++ make numpy
wget http://www.leptonica.com/source/leptonica-1.71.tar.gz
tar zxvf leptonica-1.70.tar.gz
cd leptonica-1.70
./configure --prefix=/usr
make
make install
cd ..
wget http://downloads.sourceforge.net/project/opencvlibrary/opencv-unix/2.4.3/OpenCV-2.4.3.tar.bz2
tar jxvf OpenCV-2.4.3.tar.bz2
cd OpenCV-2.4.3
cmake -D CMAKE_BUILD_TYPE=RELEASE -D CMAKE_INSTALL_PREFIX=/usr -D BUILD_PYTHON_SUPPORT=ON .
make
make install
cd ..
#svn checkout http://tesseract-ocr.googlecode.com/svn/trunk/ tesseract-ocr
#wget https://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.02.tar.gz
#tar zxvf tesseract-ocr-3.02.02.tar.gzcd tesseract-ocr/
wget https://tesseract-ocr.googlecode.com/archive/3.03-rc1.tar.gz
tar zxvf tesseract-ocr-3.03-rc1.tar.gz
cd tesseract-ocr
/autogen.sh
./configure --prefix=/usr
make
make install
cp tessdata/eng* /usr/share/tessdata
cd ..
wget http://peak.telecommunity.com/dist/ez_setup.py
python ez_setup.py
easy_install pip
yum install python-devel -y
svn checkout http://python-tesseract.googlecode.com/svn/trunk/ python-tesseract
cd python-tesseract
python setup.py build
python setup.py install
cd test-slim
rm *.pyc
rm *.pyd
python test.py
【坑】
以最终安装目的去搜索资料吧。像python-tesseract 需要安装opencv和numpy,而安装opencv并不能通过pip install去安装,单独安装的时候你会发现网上的资料特别杂,尤为本身opencv就是就是一个大工程,本身就是就一个大课题,所以不太的运用背景往往就导致别人能够安装成功而你不行。所以,效率最高的还是到官网找到安装说明,特别是了解清楚需哪些依赖库。