当前位置: 首页 > 面试题库 >

自动将PDF转换为图像

翟俊远
2023-03-14
问题内容

因此,我所处的状态是以PDF格式发布了一堆数据,但更糟糕的是,大多数(全部?)PDF似乎都是在Office中键入的字母,打印/传真然后进行扫描(我们的政府最好吗?)。起初我以为自己疯了,但后来我开始看到大量“倾斜”的pdf文件,就像有人没有正确将它们放在扫描仪上一样。因此,我想从中获得实际文本的下一个最佳方法就是将每一页变成一张图像。

显然,这需要自动化,如果可能的话,我宁愿使用Python。如果Ruby或Perl有某种形式的实现太过了不起而无法通过,我可以走那条路。我尝试使用pyPDF进行文本提取,这显然对我没有多大帮助。我已经尝试过swftools,但是我从中获得的图像完全无法使用。似乎字体在转换中被破坏了。只要它们相对较轻且可读,我什至也不在乎输出的图像格式。


问题答案:

如果PDF是真正扫描的图像,则不应将PDF转换为图像,而应从PDF中提取图像。PDF中的所有数据很可能实质上是一个巨大的图像,以PDF的详细程度进行包装以使其在Acrobat中可读。

您应该尝试简单的权宜之计,即在PDF中查找图像,然后将字节复制出来:从PDF中提取JPG。那里的代码简直太简单了,可能有很多原因无法在您的PDF文件上使用。但是,如果这样做,您将有一种快速而轻松的方法来从PDF文件中提取图像数据



 类似资料:
  • 问题内容: 我已经使用htmldoc一段时间了,但是遇到了一些相当严重的限制。我需要最终解决方案才能在Linux机器上工作。我将从Perl应用程序调用此库/实用程序/应用程序,因此任何Perl接口都将是一个奖励。 问题答案: 注意:此答案来自2008年,现在可能不正确;请检查其他答案 PrinceXML是我见过的最好的XML(它解析常规HTML以及XML / XHTML)。最好吗?好吧,它通过了a

  • 问题内容: 我想将PDF文档转换为图像。我正在使用Ghost4j。 问题: Ghost4J需要gsdll32.dll文件在运行时,我也 并不 想使用的DLL文件。 问题1: 在ghost4j中,有没有办法在没有dll的情况下转换图像? 问题2: 我在PDFBox API中找到了解决方案。convertToImage()将PDF页面转换为图像格式。 PDF文档上只有文本。运行此代码时出现该异常: 问

  • 我想把PDF文档转换成图像。我用的是Ghost4j。 问题:Ghost4J需要gsdll32。dll文件,我不想使用dll文件。 问题1:是否有任何方法,在ghost4j转换图像没有dll? 问题2:我在PDFBox API中找到了解决方案<代码>组织。阿帕奇。pdfbox。pdmodel。PDPagep具有将PDF页面转换为图像格式的方法convertToImage()。 我只有PDF文档上的文

  • 问题内容: 我有一个程序,需要使用Image Magick将PDF转换为图像。我使用包来做到这一点: 我得到的错误是: 其中最重要的是: 我认为这是因为ImageMagick无权访问PDF。现在应该怎么办?我在Linux服务器上。任何帮助表示赞赏。 问题答案: emcconville是正确的。更具体地说,编辑Imagemagick policy.xml文件以取消注释此行: 并将其从rights =

  • 问题内容: 我想将PDF页面转换为图像(PNG,JPEG / JPG或GIF)。我希望它们有整页尺寸。 使用Java如何做到这一点?哪些库可用于实现此目的? 问题答案: 您将需要一个PDF渲染器。市场上有一些或多或少的好工具(ICEPdf,pdfrenderer),但是如果没有,您将不得不依靠外部工具。免费的PDF渲染器也无法渲染嵌入的字体,因此仅适用于创建缩略图(您最终想要的)。 我最喜欢的外部

  • 我有一个程序,在这个程序中,我需要使用image Magick将PDF转换为图像。我使用包来实现这一点: 我得到的错误是: 其中最重要的是: 我认为这是因为ImageMagick无权访问PDF。现在该怎么办?我在Linux服务器上。感谢您的帮助。