当前位置：首页 > 软件库 > 程序开发 > PDF工具包 >

OCRmyPDF

为 PDF 文档增加文本层

授权协议 MPL

开发语言 Python

所属分类程序开发、 PDF工具包

软件类型开源软件

地区不详

投递者皇甫礼骞

操作系统跨平台

开源组织无

适用人群未知

软件官网

软件文档

官方下载

软件概览

OCRmyPDF 为 PDF 文件增加了 OCR 文本层，使之可以被方便的检索。

使用方法：

ocrmypdf                      # it's a scriptable command line program
   -l eng+fra                 # it supports multiple languages
   --rotate-pages             # it can fix pages that are misrotated
   --deskew                   # it can deskew crooked PDFs!
   --title "My PDF"           # it can change output metadata
   --jobs 4                   # it uses multiple cores by default
   --output-type pdfa         # it produces PDF/A by default
   input_scanned.pdf          # takes PDF input (or images)
   output_searchable.pdf      # produces validated PDF output

主要特性：

从常规PDF生成可搜索的PDF / A文件
将OCR文本准确地放置在图像下方，以方便复制/粘贴
保持原始嵌入图像的精确分辨率
尽可能将OCR信息作为“无损”操作插入，而不会破坏任何其他内容
优化PDF图像，通常生成比输入文件小的文件
如果需要，在执行OCR之前对图像进行歪斜校正和/或清洁
验证输入和输出文件
在所有可用的CPU内核上分配工作
使用Tesseract OCR引擎识别100多种语言
正确缩放以处理具有数千个页面的文件
经过数百万PDF的实战测试

使用案例

OCRmypdf安装部署深入详解

1、OCRmypdf简介 OCRmyPDF使用最好的可用开源OCR引擎Tesseract执行OCR。 OCRmyPDF是一个Python 3包，将OCR图层处理结果添加到PDF。 OCRmyPDF是功能最丰富且经过彻底测试的OCR PDF转换工具。 2、OCRmypdf支持的系统 1） macOS 2） Ubuntu 16.04 LTS 3）ArchLinux 4）Windows 此外，OCRmy
OCRmyPDF 安装详解

概述支持的操作系统： windows 10 下安装部署： windows下需要安装vc++ 2014版本. C:\Windows\System32>ver Microsoft Windows [版本 10.0.14393] windows下需要安装tesseract版本的软件： https://github.com/UB-Mannheim/tesseract/wiki tesse
Mac安装OCRmyPDF并配置依赖环境

工具: homebrew(x86) 环境: conda虚拟环境 python=3.7 tips: M1 芯片利用 homebrew 安装 miniconda 搭建 python3.7 的虚拟环境如果还装了 miniforge，注意在安装完后根据提示 init 一下你的 shell OCRmyPDF 似乎还未对3.8及以上的版本作适配官方文档: https://ocrmypdf.readthed
MacOS PDF库之OCRmyPDF(包装器脚本)

OCRmyPDF OCRmyPDF将OCR文本层添加到扫描的PDF文件中，从而可以对其进行搜索或复制粘贴。 ocrmypdf # it's a scriptable command line program -l eng+fra # it supports multiple languages --rotate-
OCRmyPDF - library loading issue

1). install as usual no problem. 2). run ocrmypdf gives the following error message ~/Library/Caches/Python-Eggs/Pillow-4.1.1-py3.5-macosx-10.6-x86_64.egg-tmp/PIL/_imaging.cpython-35m-darwin.so, 2): L
普通图片转为可复制的文字图片(PDF| OCRmyPDF)

ubuntu安装OCRmyPDF $ apt install ocrmypdf $ ocrmypdf --version 6.1.2 安装中文语言包(中文横排) $ apt-get install tesseract-ocr-chi-sim 图片转pdf $ apt-get install img2pdf 查询可用语言包 $ apt-cache search tesseract-ocr 识
ubuntu 命令行 ocr 双层pdf OCRmyPDF

扫描版 PDF 文字识别并合并入原 PDF github地址官网地址

相关资料

PDFBox加密PDF文档

主要内容：加密PDF文档,示例在前一章中，我们已经看到了如何在PDF文档中插入图像。在本章中，我们将学习如何加密PDF文档。加密PDF文档使用和类提供的方法加密PDF文档。类用于通过为其分配访问权限来保护PDF文档。使用此教程，您可以限制用户执行以下操作。打印文档修改文档的内容复制或提取文档的内容添加或修改注释填写交互式表单域提取文字和图形以便视障人士使用汇编文件打印质量下降类用于向文档添加基于密码
加密 PDF 文档（Encrypting a PDF Document）

在上一章中，我们已经了解了如何在PDF文档中插入图像。在本章中，我们将讨论如何加密PDF文档。加密PDF文档您可以使用StandardProtectionPolicy和AccessPermission classes提供的方法加密PDF文档。 AccessPermission类用于通过为其分配访问权限来保护PDF文档。使用此类，您可以限制用户执行以下操作。打印文档修改文档的内容复制或
将PDF文档拆分为多个文档

我正在尝试将一个PDF文档拆分为多个文档，其中每个文档包含的最大页数小于最大文件大小。我的代码目前可以在Eclipse上运行，但是当我点击. jar文件时，java类中的静态方法似乎崩溃了（但是我似乎抓不到异常）。不工作的代码是： myListOfDocuments=mysplitter。拆分（文件）；在调用上述行时，JVM会以某种方式退出静态方法。加载似乎工作正常，如下所示：PDDocum
添加的文本不会出现在PDF文档[重复]

我正在使用PDFBox 1.8.10将文本添加到PDF文档中。它可以很好地工作，除了在某些文档中添加文本（使用pdf structure inspector检查），但不以pdf格式显示。样本文件如下：https://kali-docs.ks2.fr/share/s/Ut_LdO8LR4WEeEd1y2k58Q 因为我想将一些自定义AlphaConstant设置为文本（和矩形），所以我使用图形状态参
如何从PDF文档中提取文本？

问题内容：如何使用PHP 从PDF文档中提取文本？（我不能使用其他工具，我没有root用户访问权限）我发现一些函数可用于纯文本，但是它们不能很好地处理Unicode字符： http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf- data-extraction-437.html 问题答案：下载 c
无法加载PDF文档-Angular JS-BLOB

问题内容：我正在尝试从Web API获取PDF文档，并希望在AngularApp中显示。出现“无法加载PDF文档错误”。我关注了“AngularJS：在角度应用程序中显示blob（.pdf）”一文。而我可以按照“ 使用AngularJS从ASP.NET WebAPI方法下载文件 ”一文中的说明成功下载同一文件。看起来我正在将文件获取为“编码的分块传输”。尝试在有角度的应用程序中显示时，某种程度
将文本转换为PDF

问题内容：我有大量文本字符串，这些字符串显然是PDF文件的原始数据，我需要将其重新制作为PDF。目前，我正在将字符串读取到StringBuffer中，但是如果需要，可以更改它。从那里，我尝试将其写到文件中并更改扩展名（我真的希望这样做能起作用，但是我有点不知道），我尝试将其带入String，然后从中取出byte []。并将其写入文件，或使用DataOutputStream将字节放入文件中。这些
Android i文本添加模板戳 PDF 表单字段覆盖现有的 PDF 文档

我正在尝试从Android中的一个遗留应用程序打开一个标准的PDF表单，使用iText覆盖表单字段，并传递到Android上的Adobe Reader来填写表单。我已经能够手动创建文本字段，但我更希望有一个pdf文件作为模板，以加快过程和更好地控制质量。这是我到目前为止的代码，遵循itext的例子。我遇到的问题在最后一行。cb.addTemplate（第0,0页）； Eclipse报告以下错

OCRmyPDF

同类工具

相关阅读

相关文章

相关问答

相关文档