当前位置: 首页 > 面试题库 >

如何从PDF提取图像及其元数据?

曹泉
2023-03-14
问题内容

是否可以使用Java从PDF文件提取图像并将其导出到特定文件夹,而又不会丢失其原始创建和修改日期?我尝试通过使用IText和PDFBox实现此目标,但没有成功。欢迎任何想法或示例。


问题答案:

图像不包含元数据,并且存储为原始数据,需要将其装配到图像中。我写了2篇博客文章,解释了如何在https://blog.idrsolutions.com/2010/04/understanding-
the-pdf-file-format-h​​ow-are-images-
stored/

和https中将图像数据存储在PDF文件中
://blog.idrsolutions.com/2010/09/understanding-the-pdf-file-format-
images/



 类似资料:
  • 问题内容: 我需要从服务器上的PDF文件中提取所有图像。我不想要PDF页面,只想要原始尺寸和分辨率的图像。 如何使用Perl,PHP或任何其他基于UNIX的应用程序(我将使用PHP的exec函数调用它)来做到这一点? 问题答案: pdfimages就是这样做的。它是poppler- utils和xpdf-utils软件包的一部分。 从联机帮助页: Pdfimages将可移植文档格式(PDF)文件中

  • 我有一个图像的数据在字节数组中()。我想获取它的元数据,例如: null 我怎么能这么做?如果有图书馆需要我了解,请告诉我。 我发现从JPEG中获取字节数组形式的元数据,但它说它与JPEG图像相关。我想对所有图像都这样做。而且,它也没有解释它是如何工作的。

  • 假设我的用户去了他们办公室的扫描仪。扫描仪能够生成扫描文档的PDF。这基本上就是我拥有的文件类型。 我想做的是从这个PDF中提取文本。这不是“第一代”pdf,因为文本没有嵌入到pdf中。文本嵌入在PDF中的图像中。 PDFBox的iText中是否有允许检索此数据的功能?如果可能的话,我正在尝试避免对图像进行OCR。我希望IText或PDFBox中有一些内置的东西可以做到这一点。 请注意,我不是在谈

  • 我知道以前也有人问过类似的问题,但是这些问题已经过时了(有些问题可以追溯到2006年)。 我有一个. net 3.5应用程序(w/iTextSharp 5),我正在转换为. net核心(iText 7),它从联邦快递跟踪文档中提取签名,通过SOAP服务以字节[]数组发送。这段代码多年来一直运行良好,只是略有更新。从联邦快递返回的PDF文档中有几个图像,但签名块不是110x46图像(这是pdf文件中

  • 我正在使用PDFBox从我的pdf(只包含JPG的)中提取图像。 因为我将把这些图像保存在我的数据库中,所以我想先把每个图像直接转换成一个inputstream对象,而不把文件临时放在我的文件系统上。然而,我在这方面遇到了困难。我认为这是因为使用了,就像我在下面的示例中所做的那样: 然而,这是可行的: 知道我如何将每个PDXObjectImage(或我能得到的任何其他对象)转换为InputStre

  • 我想使用java netbeans从pdf中的按钮中获取图像图标,并将其放在某个面板中。然而,我在这里打了一块砖头。我正在使用PDFBox作为我的PDF导出器,我似乎无法理解。我已经成功地从表单字段读取,但是只要我尝试在PDFBox中找到它,就没有按钮提取器。我应该如何制作它?是否可以使用此方法,或者是否有其他方法。提前致谢。 编辑:我已经发现使用使用此代码的示例实用程序的提取时间: 但是我仍然无