问题：

PDFBox文本提取-空输出

松增

2023-03-14

我正试图从一组PDF文件中提取一些信息。这是目前为止的工作，但一个PDF给我的委屈。

我使用的是PDFBOX1.8.8和Java7。

PDDocument document = PDDocument.load(pdfFile);
PDFTextStripper stripper = new PDFTextStripper();
System.out.println("File: "+pdfFile.getAbsolutePath()+" readable: "+pdfFile.canRead()+" size: "+pdfFile.length());
System.out.println(stripper.getText(document));

File: /foo/bar/mypdf.pdf readable: true size: 1267743

我没有例外，什么都没有。有什么想法吗？

编辑：附加信息：使用Acrobat Distiller 9.0.0（Windows）创建，格式为PDF-1.6；其他PDF是版本1.4和1.5

似乎并不包含异国情调的角色。我可以在Evince PDF-viewer中标记/复制文本

该死的。文件属性对话框（Nautilus）显示“安全性：否”，但pdfinfo给出：

Encrypted:      yes (print:yes copy:no change:no addNotes:no algorithm:AES)

不管怎么说？毕竟，pdftotext可以输出文本。

共有1个答案

凌善

2023-03-14

该文档已“加密”（写保护），但未设置用户密码。这个Stackoverflow答案说明了如何删除加密并简单地读取文件：用pdfbox从pdf中删除加密，比如qpdf

类似资料：

Java：Apache PDFbox提取突出显示的文本

问题内容：我正在使用Apache PDFbox库从PDF文件中提取突出显示的文本（即黄色背景）。我对这个库是完全陌生的，并且不知道它用于哪个目的。到目前为止，我已经使用以下代码从注释中提取了文本。现在，我需要突出显示文本，任何代码示例都将受到高度赞赏。问题答案：问题中的代码无法读取行中突出显示的确切文本，已经说明了大多数概念，这些概念可用于从具有PDFBox的页面上的有限内容区域提取文本。
Java：Apache PDFbox提取突出显示的文本

我使用Apache PDFbox库从PDF文件中提取突出显示的文本（即黄色背景）。我对这个库完全陌生，不知道该使用其中的哪个类。到目前为止，我已经使用下面的代码从注释中提取了文本。现在我需要得到突出显示的文本，任何代码示例都将受到高度赞赏。
PdfBox文本提取无法正常工作

提取的文本：http://pastebin.com/BXFfMy0z 问题pdf：http://www.iwb.ch/media/Unternehmen/Dokumente/inserat_leiter_pm.pdf 如何从该pdf文件中提取正确的文本？
如何使用Apache PDFBox从PDF文件提取文本

问题内容：我想使用Apache PDFBox从给定的PDF文件中提取文本。我写了这段代码：但是，出现以下错误：我在类路径中添加了pdfbox-1.8.5.jar和fontbox-1.8.5.jar。编辑我添加到程序的开头。我运行了它，然后出现了与上述相同的错误，并且未出现在控制台中。因此，我认为我对类路径或其他东西有疑问。谢谢。问题答案：我执行了您的代码，它工作正常。也许您的
如何使用pdfbox从pdf提取粗体文本？

问题内容：我正在使用Apache pdfbox提取文本。我可以从pdf中提取文本，但我不知道该单词是否为粗体？（代码建议会很好！！！）这是从pdf提取纯文本的代码，可以正常工作。问题答案：的结果是纯文本。因此，将其提取后为时已晚。但是，您可以覆盖某些方法，只允许根据您的意愿格式化的文本通过。在这种情况下，您必须覆盖在您的替代中，您检查所讨论的文本是否满足您的要求（包含有关所讨论文本的很多
PDFBox提取图像

主要内容：从PDF文档生成图像在前一章中，我们已经看到了如何合并多个PDF文档。在本章中，我们将了解如何从PDF文档的页面提取图像。从PDF文档生成图像 PDFBox库提供了一个名称为的类，它将PDF文档呈现为AWT BufferedImage。以下是从PDF文档生成图像的步骤。第1步:加载现有的PDF文档使用类的静态方法加载现有的PDF文档。此方法接受一个文件对象作为参数，因为这是一个静态方法，可以使用类名称调用

PDFBox文本提取-空输出

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档