与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能力不断增强;
如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。
源码地址为:https://github.com/tesseract-ocr/tesseract;
大体流程为:安装jTessBoxEditor -> 获取样本文件 -> Merge样本文件 –> 生成BOX文件 -> 定义字符配置文件 -> 字符矫正 -> 执行批处理文件 -> 将生成的 traineddata 放 入tessdata 中。
具体细节参考:光学字符识别引擎 tesseract-ocr 样体训练
Tesseract-OCR4.0 版本在 Win7 上的安装过程
Tesseract-OCR4.0版本在VS2015上的编译与运行
https://github.com/tesseract-ocr/tesseract/wiki/Data-Files