当前位置: 首页 > 工具软件 > OCRmyPDF > 使用案例 >

MacOS PDF库之OCRmyPDF(包装器脚本)

茅曾琪
2023-12-01

OCRmyPDF

OCRmyPDF将OCR文本层添加到扫描的PDF文件中,从而可以对其进行搜索或复制粘贴。

ocrmypdf                      # it's a scriptable command line program
   -l eng+fra                 # it supports multiple languages
   --rotate-pages             # it can fix pages that are misrotated
   --deskew                   # it can deskew crooked PDFs!
   --title "My PDF"           # it can change output metadata
   --jobs 4                   # it uses multiple cores by default
   --output-type pdfa         # it produces PDF/A by default
   input_scanned.pdf          # takes PDF input (or images)
   output_searchable.pdf      # produces validated PDF output

主要特点

  • 从常规PDF生成可搜索的PDF / A文件
  • 将OCR文本准确地放置在图像下方,以方便复制/粘贴
  • 保持原始嵌入图像的精确分辨率
  • 尽可能将OCR信息作为“无损”操作插入,而不会破坏任何其他内容
  • 优化PDF图像,通常生成比输入文件小的文件
  • 如果需要,在执行OCR之前对图像进行歪斜校正和/或清洁
  • 验证输入和输出文件
  • 在所有可用的CPU内核上分配工作
  • 使用Tesseract OCR引擎识别100多种语言
  • 正确缩放以处理具有数千个页面的文件
  • 经过数百万PDF的实战测试

技术交流

QQ:3365059189
SwiftUI技术交流QQ群:518696470

 类似资料: