tesseract4.0alpha是一个开源的OCR,4.0版本引用了机器学习,下面记录一些编译和安装遇到的问题:
tesseract4.0alpha是依赖于leptonica-1.74.2以上版本的库和其他一些库
sudo apt-get install g++ # or clang++ (presumably)
sudo apt-get install autoconf automake libtool
sudo apt-get install autoconf-archive
sudo apt-get install pkg-config
sudo apt-get install libpng12-dev
sudo apt-get install libjpeg8-dev
sudo apt-get install libtiff5-dev
sudo apt-get install zlib1g-dev
ps:安装libtiff5-dev 遇到了依赖不兼容的问题
训练需要的库:aptitude可以比apt-get更加智能地解决依赖问题,然后sudo aptitude install 对应安装包
选择合适的解决方案,便可解决问题!
sudo apt-get install libicu-dev
sudo apt-get install libpango1.0-dev
sudo apt-get install libcairo2-dev
leptonica.1.74.2库以上的版本需要自己编译源码,源码下载地址:
http://www.leptonica.com/download.html
下载需要的版本,解压:
./configure
make
sudo make install即可
下面是编译tesseract4.0alpha,源码下载地址:
https://github.com/tesseract-ocr/tesseract/releases
然后是解压,
./configure
发现出错了
error while loading shared libraries: liblept.so.5: cannot open shared object file: No such file or directory
# ll /usr/local/lib/liblept.so.5 可以发现这个文件是存在的,在/etc/ld.so.conf文件中
添加”/usr/local/lib“这行
# ldconfig