当前位置: 首页 > 知识库问答 >
问题:

从Java中扫描的PDF文档中获取像素数据

井旺
2023-03-14

我有一些文件,我已经用施乐扫描仪数字化成PDF文件。使用Java,我试图从中提取RGB像素数据,用于图像识别应用程序。从零开始开发这个功能有点超出我的水平,所以我依赖第三方库来进行PDF处理。

到目前为止,我已经尝试了两个不同的库;PdfBox和PdfClown。

使用PdfBox,我正在尝试使用转换ToImage()方法来获得一个BufferedImage。使用PdfClown我正在尝试使用来自渲染器类的渲染(页面,大小)方法来获得一个BufferedImage。在这两种情况下返回的图像都是空白的。所有像素都是白色的[(r, g, b)=(255,255,255)]。

我已经能够得到非空白BufferedImage的其他PDF文件,不是来自扫描,所以我怀疑问题是与扫描文档的格式。

以下是一个示例PFD文件:http://www.filedropper.com/innlevering1

有人知道如何解决这个问题吗?或者你能提供一个不同的方法吗?

共有1个答案

陈法
2023-03-14

通过安装JBIG2插件,问题得以解决。现在一切正常。非常感谢你的帮助。

 类似资料:
  • 我知道以前也有人问过类似的问题,但是这些问题已经过时了(有些问题可以追溯到2006年)。 我有一个. net 3.5应用程序(w/iTextSharp 5),我正在转换为. net核心(iText 7),它从联邦快递跟踪文档中提取签名,通过SOAP服务以字节[]数组发送。这段代码多年来一直运行良好,只是略有更新。从联邦快递返回的PDF文档中有几个图像,但签名块不是110x46图像(这是pdf文件中

  • FPDI易于使用和安装(只需提取文件并调用PHP脚本即可),但FPDI不支持许多压缩技术。然后返回一个错误: FPDF错误:此文档(test_1.pdf)可能使用了FPDI附带的免费解析器不支持的压缩技术。 这将在流中打开PDF文件,并搜索某种类型的字符串,包含pagecount或类似的内容。 (查找)不起作用,因为只有少数文档内部有参数,所以大多数情况下它不会返回任何内容。来源。 (查找)没有得

  • 我在java中有这段代码,代码工作得很好 你对这个问题有什么解决办法吗??? 谢谢

  • 问题内容: 我正在寻找从中获取像素数据(以表格形式)的最快方法。我的目标是能够解决像素从使用图像。我发现的所有方法均不执行此操作(大多数方法都返回)。 问题答案: 我只是在玩同一个主题,这是访问像素的最快方法。我目前知道执行此操作的两种方法: 使用的答案中所述的BufferedImage 方法。 通过直接使用以下方式访问像素数组: 如果你要处理大图像并且性能是一个问题,则第一种方法绝对不是可行的方

  • 问题内容: 我正在尝试从位图获取像素rgb值。我得到了一些价值,但远没有达到我期望的价值。我也得到: 我找不到界外错误… 这是代码: 问题答案: 这个: 与此不符: 你已经计数的行和列,即包含 ÿ 值和包含 X 的值。那是倒退。

  • 问题内容: 我试图找到一种方法来从键盘输入。 我尝试使用: 该方法不存在。 我尝试了作为。但是,它并不总是在每种情况下都可行,因为我从我的方法中调用的另一个方法需要作为输入。因此,我必须找到一种显式将char作为输入的方法。 有什么帮助吗? 问题答案: 你可以从中提取第一个字符: 消耗正好一个字符,你可以使用: 要严格使用一个字符,可以使用: