当前位置: 首页 > 知识库问答 >
问题:

pdfbox在pdf错误上提取彩色字体

程项禹
2023-03-14

2013年7月17日1:05:28 PM org.apache.pdfbox.util.pdfstreamengine processOperator信息:不支持/禁用操作:BDC 2013年7月17日1:05:29 PM org.apache.pdfbox.util.pdfstreamengine processOperator信息:不支持/禁用操作:EMC DeviceGray org.apache.pdfbox.pdmodel.graphics.color.pdcolorstate@481958 0.0

我摘录的pdf内容为3个字母(RGB),上面画着:

R:用红色涂G:用绿色涂B:用黑色涂

有人可以解释我,因为这个错误o告诉我如何从PDF中提取彩色文本?

感谢所有对未来的评论

共有1个答案

罗金林
2023-03-14

这些日志输出仅为级别信息,而不是错误:

jul 17, 2013 1:05:28 PM org.apache.pdfbox.util.PDFStreamEngine processOperator INFO: unsupported/disabled operation: BDC
jul 17, 2013 1:05:29 PM org.apache.pdfbox.util.PDFStreamEngine processOperator INFO: unsupported/disabled operation: EMC 

他们所说的只是在没有注册处理器的页面内容中遇到了某些操作符(BDC、EMC)。但是,由于这些操作符只对分析标记的内容感兴趣,因此在您的任务中可以忽略这些操作符。

此后,您将从所引用的代码中获得输出:

DeviceGray
org.apache.pdfbox.pdmodel.graphics.color.PDColorState@481958
0.0
 类似资料:
  • 嗨,这个问题是指之前的帖子: 有人能给我举个例子,说明如何使用PDFBox提取“单词”的坐标吗 我使用的是PDFBOX 2.0.10 我已成功编译了组合代码,但在尝试运行示例时出现异常错误。 提供的解决方案没有标准的主方法,这是我感到困惑的地方。 有人能告诉我怎样才能成功运行组合代码吗。 堆栈跟踪 可以在这里找到坐标https://github.com/mkl-public/testarea-pd

  • 我正在使用PDFBox从我的pdf(只包含JPG的)中提取图像。 因为我将把这些图像保存在我的数据库中,所以我想先把每个图像直接转换成一个inputstream对象,而不把文件临时放在我的文件系统上。然而,我在这方面遇到了困难。我认为这是因为使用了,就像我在下面的示例中所做的那样: 然而,这是可行的: 知道我如何将每个PDXObjectImage(或我能得到的任何其他对象)转换为InputStre

  • 背景 我一直在开发一个程序,它可以获取一个pdf,突出显示一些单词(通过pdfbox标记注释)并保存新的pdf。 为此,我扩展了PDFTextStripper类,以覆盖writeString()方法并获取每个单词(框)的TextPositions,这样我就可以准确地知道文本在PDF文档中的坐标位置(TextPosition对象为我提供每个单词框的坐标)。然后,在此基础上,我画了一个矩形,突出显示我

  • 问题内容: 我正在使用Apache pdfbox提取文本。我可以从pdf中提取文本,但我不知道该单词是否为粗体?(代码建议会很好!!!)这是从pdf提取纯文本的代码,可以正常工作。 问题答案: 的结果是纯文本。因此,将其提取后为时已晚。但是,您可以覆盖某些方法,只允许根据您的意愿格式化的文本通过。 在这种情况下,您必须覆盖 在您的替代中,您检查所讨论的文本是否满足您的要求(包含有关所讨论文本的很多

  • 再次向各位程序员问好。 我可以正确提取PDF文本坐标及其格式。但我不能用图像。我可以得到正确的宽度和高度,但它给了我错误的x和y。 我正在使用Photoshop检查我是否得到了正确的x,y,宽度,高度坐标,但只有宽度和高度是正确的 这是我的代码: 下面是我使用的PDF示例: http://persci.mit.edu/pub_pdfs/personal_photo_enhancement.pdf

  • 当用PDFBox加载PDF时,如果PDF错误,则会收到日志级警告: 例如,这可能导致控制台上的以下输出: 显然,pdf在内容流中有一些错误,但它确实加载到中。但是否有可能用PDFBOX以编程方式捕获此警告?是否存在一些属性来告诉您文档加载后的警告? 我试过PDFBox-Preflight,但这会检查PDF/A是否符合,这会导致更多的消息。