当前位置：首页 > 面试题库 >

如何从PDF文件提取图像？

陶沛

2023-03-14

问题内容：

我需要从服务器上的PDF文件中提取所有图像。我不想要PDF页面，只想要原始尺寸和分辨率的图像。

如何使用Perl，PHP或任何其他基于UNIX的应用程序（我将使用PHP的exec函数调用它）来做到这一点？

问题答案：

pdfimages就是这样做的。它是poppler-
utils和xpdf-utils软件包的一部分。

从联机帮助页：

Pdfimages将可移植文档格式（PDF）文件中的图像另存为可移植Pixmap（PPM），可移植位图（PBM）或JPEG文件。

Pdfimages读取PDF文件，扫描一页或多页PDF文件，并为每个图像image-root-
nnn.xxx写入一个PPM，PBM或JPEG文件，其中nnn是图像编号，xxx是图像类型（.ppm，.pbm，.jpg）。

注意：pdfimages从PDF文件中提取原始图像数据，而无需执行任何其他转换。PDF内容流所做的任何旋转，剪切，颜色反转等操作都将被忽略。

类似资料：

如何从PDF文件中提取文本？

问题内容：我正在尝试使用提取此 PDF文件中包含的文本。我正在使用PyPDF2模块，并具有以下脚本：运行代码时，得到以下输出，该输出与PDF文档中包含的输出不同：如何提取PDF文档中的文本？问题答案：要从PDF提取文本，请使用以下代码
从PDF图像中提取文本

假设我的用户去了他们办公室的扫描仪。扫描仪能够生成扫描文档的PDF。这基本上就是我拥有的文件类型。我想做的是从这个PDF中提取文本。这不是“第一代”pdf，因为文本没有嵌入到pdf中。文本嵌入在PDF中的图像中。 PDFBox的iText中是否有允许检索此数据的功能？如果可能的话，我正在尝试避免对图像进行OCR。我希望IText或PDFBox中有一些内置的东西可以做到这一点。请注意，我不是在谈
从pdf文档中提取图像

我知道以前也有人问过类似的问题，但是这些问题已经过时了（有些问题可以追溯到2006年）。我有一个. net 3.5应用程序（w/iTextSharp 5），我正在转换为. net核心（iText 7），它从联邦快递跟踪文档中提取签名，通过SOAP服务以字节[]数组发送。这段代码多年来一直运行良好，只是略有更新。从联邦快递返回的PDF文档中有几个图像，但签名块不是110x46图像（这是pdf文件中
如何从PDF文档中提取文本？

问题内容：如何使用PHP 从PDF文档中提取文本？（我不能使用其他工具，我没有root用户访问权限）我发现一些函数可用于纯文本，但是它们不能很好地处理Unicode字符： http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf- data-extraction-437.html 问题答案：下载 c
如何使用Apache PDFBox从PDF文件提取文本

问题内容：我想使用Apache PDFBox从给定的PDF文件中提取文本。我写了这段代码：但是，出现以下错误：我在类路径中添加了pdfbox-1.8.5.jar和fontbox-1.8.5.jar。编辑我添加到程序的开头。我运行了它，然后出现了与上述相同的错误，并且未出现在控制台中。因此，我认为我对类路径或其他东西有疑问。谢谢。问题答案：我执行了您的代码，它工作正常。也许您的
如何从PDF文件提取文本和文本坐标？

问题内容：我想使用PDFMiner从PDF文件中提取所有文本框和文本框坐标。其他许多Stack Overflow帖子都介绍了如何以有序方式提取所有文本，但是我该如何做获取文本和文本位置的中间步骤呢？给定一个PDF文件，输出应类似于：问题答案：换行符在最终输出中转换为下划线。这是我发现的最小工作解决方案。

如何从PDF文件提取图像？

相关阅读

相关文章

相关问答

相关工具

相关文档