OCRmyPDF
OCRmyPDF将OCR文本层添加到扫描的PDF文件中,从而可以对其进行搜索或复制粘贴。
ocrmypdf # it's a scriptable command line program
-l eng+fra # it supports multiple languages
--rotate-pages # it can fix pages that are misrotated
--deskew # it can deskew crooked PDFs!
--title "My PDF" # it can change output metadata
--jobs 4 # it uses multiple cores by default
--output-type pdfa # it produces PDF/A by default
input_scanned.pdf # takes PDF input (or images)
output_searchable.pdf # produces validated PDF output
主要特点
- 从常规PDF生成可搜索的PDF / A文件
- 将OCR文本准确地放置在图像下方,以方便复制/粘贴
- 保持原始嵌入图像的精确分辨率
- 尽可能将OCR信息作为“无损”操作插入,而不会破坏任何其他内容
- 优化PDF图像,通常生成比输入文件小的文件
- 如果需要,在执行OCR之前对图像进行歪斜校正和/或清洁
- 验证输入和输出文件
- 在所有可用的CPU内核上分配工作
- 使用Tesseract OCR引擎识别100多种语言
- 正确缩放以处理具有数千个页面的文件
- 经过数百万PDF的实战测试
技术交流
QQ:3365059189
SwiftUI技术交流QQ群:518696470