检测是否使用OCR[pdfbox]从扫描文档创建PDF

牛嘉谊

2023-03-14

我想知道PDF是否是使用OCR从扫描文档创建的。

为了使扫描文档中的文本可以选择，我猜相同的文本是使用透明颜色、特殊字体。。。

我正在使用pdfbox，我查看了字体、颜色和许多其他属性，没有发现任何特殊之处。

共有2个答案

凌成天

2023-03-14

在大多数情况下，原始图像仍然存在，并且OCRd文本在下面不可见。

因此，一种可能性是找出是否有一张图片覆盖了所有带有文本的区域。

另一种可能是查看字体并根据它们做出一些明智的决定

鲜于浩淼

2023-03-14

在我的例子中，文本渲染模式设置为“既不填充也不描边文本”。

pdfbox代码：

getGraphicsState().getTextState().getRenderingMode() == PDTextState.RENDERING_MODE_NEITHER_FILL_NOR_STROKE_TEXT

类似资料：

使用Apache PDFBox从PDF文档中删除OCR文本

系统中的一些PDF文档是通过扫描创建的，其中包括OCR文本。然而，OCR没有正确执行（西里尔语和拉丁语字符混淆），尽管文档看起来可以搜索，但该信息完全不正确，无法使用。在Adobe Acrobat Reader DC（或GoogleChrome）中查看PDF文档时，它会正确显示，但在使用PDF. js呈现文档的网页上，OCR文本会显示在前面，而不是原始文本的扫描图形呈现。这个想法是通过从PDF
PDFBox创建PDF文档

主要内容：创建一个空的PDF文档,实例现在让我们了解如何使用PDFBox库创建PDF文档。创建一个空的PDF文档可以通过实例化类来创建一个空的PDF文档。使用这个类的方法将文档保存在所需的位置。以下是创建一个空的PDF文档的步骤。第1步: 创建空白文档包中的类是PDF文档的内存中表示形式。因此，通过实例化这个类，可以创建一个空的，如下面的代码块所示。第2步: 保存文档创建文档后，需要将此文档保存在所需的路径中，可以使用
检查PDF文件是否已扫描

问题内容：以编程方式检查PDF文件是否被完全扫描的最佳方法是什么？我确实可以使用iText和PDFBox。我可以检查pdf文件是否包含文本，并根据结果确定该文件是否为OCRed，但是此解决方案并非100％准确。我想知道是否还有另一种方法来解决这个问题。如您所知，解决方案必须基于Java。问题答案：最好的选择是检查它是否包含文本，还查看它是否包含大的页面化图像或覆盖页面的大量平铺图像。如果您
使用PDFBOX API创建新的PDF文档

问题内容：我需要创建一个PDF，其中将包含执行状态报告，其中状态将以表格结构显示。是否可以使用PDFBOX API生成pdf表格式？以下是一些用于创建新PDF文档的示例代码：问题答案：试试这个：只需在函数中调用此方法
使用PDFBox动态创建多页文档

我正在尝试从Java结果集创建PDF报告。如果报告只有一页，我在这里就没有问题了。这个问题源于这样一个事实：这份报告可能有一到十页长。现在，我要创建一个单页文档：所以我的问题是，如何根据需要动态创建页面。有没有一个面向对象的答案盯着我看，而我就是看不见？
如何使用pdfbox检查文本是否透明

问题内容：我继承了子类并重载了，现在我可以像这样重构文本，但是我不想处理透明文本，这通常是垃圾。我怎么知道某些文本是否透明？问题答案：事实证明，透明文本实际上根本不是透明的，而只是被图像覆盖：在201103 SA的关键吸烟统计数据2010 FINAL.pdf中，图像“ SA — 2004的关键吸烟统计数据”已被图像覆盖。显示TC标志。下面显示了文本剥离程序类的概念证明，该类将忽略图

检测是否使用OCR[pdfbox]从扫描文档创建PDF

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档