当前位置: 首页 > 工具软件 > Leptonica > 使用案例 >

tesseract4.0alpha、leptonica-1.74.4编译和安装

柯永福
2023-12-01

tesseract4.0alpha是一个开源的OCR,4.0版本引用了机器学习,下面记录一些编译和安装遇到的问题:

tesseract4.0alpha是依赖于leptonica-1.74.2以上版本的库和其他一些库

sudo apt-get install g++ # or clang++ (presumably)
sudo apt-get install autoconf automake libtool
sudo apt-get install autoconf-archive
sudo apt-get install pkg-config
sudo apt-get install libpng12-dev
sudo apt-get install libjpeg8-dev
sudo apt-get install libtiff5-dev
sudo apt-get install zlib1g-dev
ps:安装libtiff5-dev 遇到了依赖不兼容的问题

aptitude可以比apt-get更加智能地解决依赖问题,然后sudo aptitude install 对应安装包

选择合适的解决方案,便可解决问题!

训练需要的库:

sudo apt-get install libicu-dev
sudo apt-get install libpango1.0-dev
sudo apt-get install libcairo2-dev
leptonica.1.74.2库以上的版本需要自己编译源码,源码下载地址:

http://www.leptonica.com/download.html

下载需要的版本,解压:

./configure

make

sudo make install即可

下面是编译tesseract4.0alpha,源码下载地址:

https://github.com/tesseract-ocr/tesseract/releases

然后是解压,

./configure

发现出错了

error while loading shared libraries: liblept.so.5: cannot open shared object file: No such file or directory
# ll /usr/local/lib/liblept.so.5  可以发现这个文件是存在的,在/etc/ld.so.conf文件中
添加”/usr/local/lib“这行
# ldconfig 

ldconfig是一个动态链接库管理命令,为了让动态链接库为系统所共享,还需运行动态链接库的管理命令--ldconfig ,用途主要是在默认搜寻目录(/lib和/usr/lib)以及动态库配置文件/etc/ld.so.conf内所列的目录下,搜索出可共享的动态链接库(格式如前介绍,lib*.so*),进而创建出动态装入程序(ld.so)所需的连接和缓存文件.缓存文件默认为 /etc/ld.so.cache,此文件保存已排好序的动态链接库名字列表.ldconfig通常在系统启动时运行,而当用户安装了一个新的动态链接库时,就需要手工运行这个命令.
再次执行就没有错误了
然后就是make
make install
下载官网训练好的 data:地址:https://github.com/tesseract-ocr/tesseract/wiki/Data-Files#data-files-for-version-400
放到/usr/local/share/tesseract/

 tesseract eng.png result  -l eng  测试命令 





 类似资料: