MacOS PDF库之OCRmyPDF(包装器脚本)

茅曾琪

2023-12-01

OCRmyPDF

OCRmyPDF将OCR文本层添加到扫描的PDF文件中，从而可以对其进行搜索或复制粘贴。

ocrmypdf                      # it's a scriptable command line program
   -l eng+fra                 # it supports multiple languages
   --rotate-pages             # it can fix pages that are misrotated
   --deskew                   # it can deskew crooked PDFs!
   --title "My PDF"           # it can change output metadata
   --jobs 4                   # it uses multiple cores by default
   --output-type pdfa         # it produces PDF/A by default
   input_scanned.pdf          # takes PDF input (or images)
   output_searchable.pdf      # produces validated PDF output

主要特点

从常规PDF生成可搜索的PDF / A文件
将OCR文本准确地放置在图像下方，以方便复制/粘贴
保持原始嵌入图像的精确分辨率
尽可能将OCR信息作为“无损”操作插入，而不会破坏任何其他内容
优化PDF图像，通常生成比输入文件小的文件
如果需要，在执行OCR之前对图像进行歪斜校正和/或清洁
验证输入和输出文件
在所有可用的CPU内核上分配工作
使用Tesseract OCR引擎识别100多种语言
正确缩放以处理具有数千个页面的文件
经过数百万PDF的实战测试

技术交流

QQ:3365059189
SwiftUI技术交流QQ群:518696470

MacOS PDF库之OCRmyPDF(包装器脚本)

OCRmyPDF

主要特点

技术交流

相关阅读

相关文章

相关问答

相关文档