问题：

从PDF图像中提取文本

百里业

2023-03-14

假设我的用户去了他们办公室的扫描仪。扫描仪能够生成扫描文档的PDF。这基本上就是我拥有的文件类型。

我想做的是从这个PDF中提取文本。这不是“第一代”pdf，因为文本没有嵌入到pdf中。文本嵌入在PDF中的图像中。

PDFBox的iText中是否有允许检索此数据的功能？如果可能的话，我正在尝试避免对图像进行OCR。我希望IText或PDFBox中有一些内置的东西可以做到这一点。

请注意，我不是在谈论从pdf中提取“普通”文本，如下所述：如何使用java从pdf文件中获取原始文本

共有1个答案

上官华池

2023-03-14

好吧，仔细看了一下，似乎没有办法专门用iText或PDFBox来实现这一点，但看起来PDFBox确实有一个第三方软件插件，可以满足您的需要。如果您对此感兴趣，可以在此处和此处链接，来源于此处（来源于@TilmanHausherr）。

类似资料：

从pdf文档中提取图像

我知道以前也有人问过类似的问题，但是这些问题已经过时了（有些问题可以追溯到2006年）。我有一个. net 3.5应用程序（w/iTextSharp 5），我正在转换为. net核心（iText 7），它从联邦快递跟踪文档中提取签名，通过SOAP服务以字节[]数组发送。这段代码多年来一直运行良好，只是略有更新。从联邦快递返回的PDF文档中有几个图像，但签名块不是110x46图像（这是pdf文件中
如何从PDF文件提取图像？

问题内容：我需要从服务器上的PDF文件中提取所有图像。我不想要PDF页面，只想要原始尺寸和分辨率的图像。如何使用Perl，PHP或任何其他基于UNIX的应用程序（我将使用PHP的exec函数调用它）来做到这一点？问题答案： pdfimages就是这样做的。它是poppler- utils和xpdf-utils软件包的一部分。从联机帮助页： Pdfimages将可移植文档格式（PDF）文件中
PDFBOX：从pdf中提取图像到inputstream

我正在使用PDFBox从我的pdf（只包含JPG的）中提取图像。因为我将把这些图像保存在我的数据库中，所以我想先把每个图像直接转换成一个inputstream对象，而不把文件临时放在我的文件系统上。然而，我在这方面遇到了困难。我认为这是因为使用了，就像我在下面的示例中所做的那样：然而,这是可行的：知道我如何将每个PDXObjectImage（或我能得到的任何其他对象）转换为InputStre
使用iText从PDF坐标中提取图像

有可能吗？如果是，那么它可以怎么做。
docker：从图像中提取图层

让我们以whalesay图片为例<代码>docker history显示以下内容：我想提取显示为的层。有这样做的工具/方法吗？
PyteSeract或Keras OCR从图像中提取文本

我正在尝试从图像中提取文本。目前我得到的输出是空字符串。以下是我的pytesseract代码，尽管我也对Keras OCR持开放态度：- 我不确定如何使用svg图像，所以我将它们转换为png。下面是一些示例图像：- 编辑1 (2021-05-19)：我可以使用cairosvg将svg转换为png。仍然无法读取验证码文本编辑2（2021-05-20）：Keras OCR也不会为这些图像返回任何内容

从PDF图像中提取文本

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档