我正试图从一组PDF文件中提取一些信息。这是目前为止的工作,但一个PDF给我的委屈。
我使用的是PDFBOX1.8.8和Java7。
PDDocument document = PDDocument.load(pdfFile);
PDFTextStripper stripper = new PDFTextStripper();
System.out.println("File: "+pdfFile.getAbsolutePath()+" readable: "+pdfFile.canRead()+" size: "+pdfFile.length());
System.out.println(stripper.getText(document));
File: /foo/bar/mypdf.pdf readable: true size: 1267743
我没有例外,什么都没有。有什么想法吗?
编辑:附加信息:使用Acrobat Distiller 9.0.0(Windows)创建,格式为PDF-1.6;其他PDF是版本1.4和1.5
似乎并不包含异国情调的角色。我可以在Evince PDF-viewer中标记/复制文本
该死的。文件属性对话框(Nautilus)显示“安全性:否”,但pdfinfo
给出:
Encrypted: yes (print:yes copy:no change:no addNotes:no algorithm:AES)
不管怎么说?毕竟,pdftotext
可以输出文本。
该文档已“加密”(写保护),但未设置用户密码。这个Stackoverflow答案说明了如何删除加密并简单地读取文件:用pdfbox从pdf中删除加密,比如qpdf
问题内容: 我正在使用Apache PDFbox库从PDF文件中提取突出显示的文本(即黄色背景)。我对这个库是完全陌生的,并且不知道它用于哪个目的。到目前为止,我已经使用以下代码从注释中提取了文本。 现在,我需要突出显示文本,任何代码示例都将受到高度赞赏。 问题答案: 问题中的代码无法读取行中突出显示的确切文本,已经说明了大多数概念,这些概念可用于从具有PDFBox的页面上的有限内容区域提取文本。
我使用Apache PDFbox库从PDF文件中提取突出显示的文本(即黄色背景)。我对这个库完全陌生,不知道该使用其中的哪个类。到目前为止,我已经使用下面的代码从注释中提取了文本。 现在我需要得到突出显示的文本,任何代码示例都将受到高度赞赏。
提取的文本:http://pastebin.com/BXFfMy0z 问题pdf:http://www.iwb.ch/media/Unternehmen/Dokumente/inserat_leiter_pm.pdf 如何从该pdf文件中提取正确的文本?
问题内容: 我想使用Apache PDFBox从给定的PDF文件中提取文本。 我写了这段代码: 但是,出现以下错误: 我在类路径中添加了pdfbox-1.8.5.jar和fontbox-1.8.5.jar。 编辑 我添加到程序的开头。 我运行了它,然后出现了与上述相同的错误,并且未出现在控制台中。 因此,我认为我对类路径或其他东西有疑问。 谢谢。 问题答案: 我执行了您的代码,它工作正常。也许您的
问题内容: 我正在使用Apache pdfbox提取文本。我可以从pdf中提取文本,但我不知道该单词是否为粗体?(代码建议会很好!!!)这是从pdf提取纯文本的代码,可以正常工作。 问题答案: 的结果是纯文本。因此,将其提取后为时已晚。但是,您可以覆盖某些方法,只允许根据您的意愿格式化的文本通过。 在这种情况下,您必须覆盖 在您的替代中,您检查所讨论的文本是否满足您的要求(包含有关所讨论文本的很多
主要内容:从PDF文档生成图像在前一章中,我们已经看到了如何合并多个PDF文档。 在本章中,我们将了解如何从PDF文档的页面提取图像。 从PDF文档生成图像 PDFBox库提供了一个名称为的类,它将PDF文档呈现为AWT BufferedImage。 以下是从PDF文档生成图像的步骤。 第1步:加载现有的PDF文档 使用类的静态方法加载现有的PDF文档。 此方法接受一个文件对象作为参数,因为这是一个静态方法,可以使用类名称调用