当前位置: 首页 > 软件库 > 程序开发 > PDF工具包 >

OCRmyPDF

为 PDF 文档增加文本层
授权协议 MPL
开发语言 Python
所属分类 程序开发、 PDF工具包
软件类型 开源软件
地区 不详
投 递 者 皇甫礼骞
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

OCRmyPDF 为 PDF 文件增加了 OCR 文本层,使之可以被方便的检索。

使用方法:

ocrmypdf                      # it's a scriptable command line program
   -l eng+fra                 # it supports multiple languages
   --rotate-pages             # it can fix pages that are misrotated
   --deskew                   # it can deskew crooked PDFs!
   --title "My PDF"           # it can change output metadata
   --jobs 4                   # it uses multiple cores by default
   --output-type pdfa         # it produces PDF/A by default
   input_scanned.pdf          # takes PDF input (or images)
   output_searchable.pdf      # produces validated PDF output

主要特性:

  • 从常规PDF生成可搜索的PDF / A文件
  • 将OCR文本准确地放置在图像下方,以方便复制/粘贴
  • 保持原始嵌入图像的精确分辨率
  • 尽可能将OCR信息作为“无损”操作插入,而不会破坏任何其他内容
  • 优化PDF图像,通常生成比输入文件小的文件
  • 如果需要,在执行OCR之前对图像进行歪斜校正和/或清洁
  • 验证输入和输出文件
  • 在所有可用的CPU内核上分配工作
  • 使用Tesseract OCR引擎识别100多种语言
  • 正确缩放以处理具有数千个页面的文件
  • 经过数百万PDF的实战测试
  • 1、OCRmypdf简介 OCRmyPDF使用最好的可用开源OCR引擎Tesseract执行OCR。 OCRmyPDF是一个Python 3包,将OCR图层处理结果添加到PDF。 OCRmyPDF是功能最丰富且经过彻底测试的OCR PDF转换工具。 2、OCRmypdf支持的系统 1) macOS 2) Ubuntu 16.04 LTS 3)ArchLinux 4)Windows 此外,OCRmy

  • 概述 支持的操作系统: windows 10 下安装部署: windows下需要安装vc++ 2014版本. C:\Windows\System32>ver Microsoft Windows [版本 10.0.14393] windows下需要安装tesseract版本的软件: https://github.com/UB-Mannheim/tesseract/wiki tesse

  • 工具: homebrew(x86) 环境: conda虚拟环境 python=3.7 tips: M1 芯片利用 homebrew 安装 miniconda 搭建 python3.7 的虚拟环境 如果还装了 miniforge,注意在安装完后根据提示 init 一下你的 shell OCRmyPDF 似乎还未对3.8及以上的版本作适配 官方文档: https://ocrmypdf.readthed

  • OCRmyPDF OCRmyPDF将OCR文本层添加到扫描的PDF文件中,从而可以对其进行搜索或复制粘贴。 ocrmypdf # it's a scriptable command line program -l eng+fra # it supports multiple languages --rotate-

  • 1). install as usual no problem. 2). run ocrmypdf gives the following error message ~/Library/Caches/Python-Eggs/Pillow-4.1.1-py3.5-macosx-10.6-x86_64.egg-tmp/PIL/_imaging.cpython-35m-darwin.so, 2): L

  • ubuntu安装OCRmyPDF $ apt install ocrmypdf $ ocrmypdf --version 6.1.2 安装中文语言包(中文横排) $ apt-get install tesseract-ocr-chi-sim 图片转pdf $ apt-get install img2pdf 查询可用语言包 $ apt-cache search tesseract-ocr 识

  • 扫描版 PDF 文字识别并合并入原 PDF github地址 官网地址

 相关资料
  • 主要内容:加密PDF文档,示例在前一章中,我们已经看到了如何在PDF文档中插入图像。 在本章中,我们将学习如何加密PDF文档。 加密PDF文档 使用和类提供的方法加密PDF文档。 类用于通过为其分配访问权限来保护PDF文档。 使用此教程,您可以限制用户执行以下操作。 打印文档 修改文档的内容 复制或提取文档的内容 添加或修改注释 填写交互式表单域 提取文字和图形以便视障人士使用 汇编文件 打印质量下降 类用于向文档添加基于密码

  • 在上一章中,我们已经了解了如何在PDF文档中插入图像。 在本章中,我们将讨论如何加密PDF文档。 加密PDF文档 您可以使用StandardProtectionPolicy和AccessPermission classes提供的方法加密PDF文档。 AccessPermission类用于通过为其分配访问权限来保护PDF文档。 使用此类,您可以限制用户执行以下操作。 打印文档 修改文档的内容 复制或

  • 我正在尝试将一个PDF文档拆分为多个文档,其中每个文档包含的最大页数小于最大文件大小。 我的代码目前可以在Eclipse上运行,但是当我点击. jar文件时,java类中的静态方法似乎崩溃了(但是我似乎抓不到异常)。 不工作的代码是: myListOfDocuments=mysplitter。拆分(文件); 在调用上述行时,JVM会以某种方式退出静态方法。加载似乎工作正常,如下所示:PDDocum

  • 我正在使用PDFBox 1.8.10将文本添加到PDF文档中。它可以很好地工作,除了在某些文档中添加文本(使用pdf structure inspector检查),但不以pdf格式显示。样本文件如下:https://kali-docs.ks2.fr/share/s/Ut_LdO8LR4WEeEd1y2k58Q 因为我想将一些自定义AlphaConstant设置为文本(和矩形),所以我使用图形状态参

  • 问题内容: 如何 使用PHP 从PDF文档中提取文本? (我不能使用其他工具,我没有root用户访问权限) 我发现一些函数可用于纯文本,但是它们不能很好地处理Unicode字符: http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf- data-extraction-437.html 问题答案: 下载 c

  • 问题内容: 我正在尝试从Web API获取PDF文档,并希望在AngularApp中显示。出现“无法加载PDF文档错误”。我关注了“AngularJS:在角度应用程序中显示blob(.pdf)”一文。而我可以按照“ 使用AngularJS从ASP.NET WebAPI方法下载文件 ”一文中的说明成功下载同一文件。 看起来我正在将文件获取为“编码的分块传输”。尝试在有角度的应用程序中显示时,某种程度

  • 问题内容: 我有大量文本字符串,这些字符串显然是PDF文件的原始数据,我需要将其重新制作为PDF。 目前,我正在将字符串读取到StringBuffer中,但是如果需要,可以更改它。从那里,我尝试将其写到文件中并更改扩展名(我真的希望这样做能起作用,但是我有点不知道),我尝试将其带入String,然后从中取出byte []。并将其写入文件,或使用DataOutputStream将字节放入文件中。这些

  • 我正在尝试从Android中的一个遗留应用程序打开一个标准的PDF表单,使用iText覆盖表单字段,并传递到Android上的Adobe Reader来填写表单。 我已经能够手动创建文本字段,但我更希望有一个pdf文件作为模板,以加快过程和更好地控制质量。 这是我到目前为止的代码,遵循itext的例子。 我遇到的问题在最后一行。cb.addTemplate(第0,0页); Eclipse报告以下错