当前位置: 首页 > 工具软件 > Pdfsandwich > 使用案例 >

SwiftUI PDF库之pdfsandwich(包装器脚本)

奚光霁
2023-12-01

请注意,本篇文章属于介绍类文章,只能帮助您分析SwiftUI使用的可能性。

pdfsandwich

pdfsandwich是一款 支持 OCR pdf文件的工具库
地址:http://www.tobias-elze.de/pdfsandwich/

核心介绍

pdfsandwich生成 OCR pdf文件,即仅包含图像(不包含文本)的pdf文件将通过光学字符识别(OCR)处理,并且文本将不可见地添加到图像的“后面”。

pdfsandwich是一种命令行工具,应该对OCR扫描的书籍或日记很有用。它甚至可以识别多列文本的页面布局。

实质上,pdfsandwich是一个包装器脚本,它调用以下二进制文件:unpaper(版本0.0.9起),convert,gs,hocr2pdf(适用于3.03之前的tesseract)和tesseract。它可以在Unix系统上运行,并且已经在Linux和MacOS X上进行了测试。它支持在多处理器系统上进行并行处理。

虽然pdfsandwich可与3.0版以上的任何版本的tesseract一起使用,但建议使用tesseract 3.03或更高版本以获得最佳性能。缺省情况下,pdfsandwich运行无纸化以增强扫描页面的可读性并改善OCR。例如,略微旋转的页面将自动拉直,并去除深色边缘。对于最佳扫描的pdf文件,可以使用-nopreproc选项将其关闭以加快处理速度。

SwiftUI 是否使用

咱们先brew 一下看看实际的依

 类似资料: