当前位置：首页 > 面试题库 >

使用PDFBox从PDF文档中读取特定页面

钱选

2023-03-14

问题内容：

如何使用PDFBox从PDF文档中读取特定页面（具有页码）？

问题答案：

这应该工作：

PDPage firstPage = (PDPage)doc.getAllPages().get( 0 );

如本教程的“
书签”部分中所示

更新2015年，版本2.0.0快照

似乎已将其删除并放回（？）。 getPage 在2.0.0
javadoc中。要使用它：

PDDocument document = PDDocument.load(new File(filename));
PDPage doc = document.getPage(0);

该 getAllPages 方法已更名
GETPAGES

PDPage page = (PDPage)doc.getPages().get( 0 );

类似资料：

PDFBox读取文档

主要内容：从现有的PDF文档中提取文本,第4步:关闭文档,示例在前一章中，我们已经学习了如何将文本添加到现有的PDF文档。在本章中，我们将学习如何从现有PDF文档中读取文本。从现有的PDF文档中提取文本提取文本是的主要功能之一。可以使用类的方法提取文本。这个类从给定的PDF文档中提取所有文本。以下是从现有PDF文档中提取文本的步骤。第1步:加载现有的PDF文档使用类的静态方法加载现有的PDF文档。此方法接受一个文件对象作为参数，因为这是一个
无法使用PDFBOX读取PDF文件

我正在尝试使用JAVA填写PDF表单，但当我尝试使用下面的代码获取字段时，列表为空。然后我尝试使用PDFStripper读取文件输出如下 “请稍候。。。如果此消息最终未被文档的正确内容替换，则PDF查看器可能无法显示此类文档。您可以通过访问升级至最新版本的Adobe Reader for Windows®、Mac或Linux®http://www.adobe.com/go/reader_d
PDFBox在特定pdf文档中获取错误的文本位置

背景我一直在开发一个程序，它可以获取一个pdf，突出显示一些单词（通过pdfbox标记注释）并保存新的pdf。为此，我扩展了PDFTextStripper类，以覆盖writeString（）方法并获取每个单词（框）的TextPositions，这样我就可以准确地知道文本在PDF文档中的坐标位置（TextPosition对象为我提供每个单词框的坐标）。然后，在此基础上，我画了一个矩形，突出显示我
使用Apache PDFBox从PDF文档中删除OCR文本

系统中的一些PDF文档是通过扫描创建的，其中包括OCR文本。然而，OCR没有正确执行（西里尔语和拉丁语字符混淆），尽管文档看起来可以搜索，但该信息完全不正确，无法使用。在Adobe Acrobat Reader DC（或GoogleChrome）中查看PDF文档时，它会正确显示，但在使用PDF. js呈现文档的网页上，OCR文本会显示在前面，而不是原始文本的扫描图形呈现。这个想法是通过从PDF
PDFBox PDF文档中的JavaScript

主要内容：将JavaScript添加到PDF文档,示例在前一章中，我们学习了如何将图像插入到PDF文档中。在本章中，将学习如何将JavaScript添加到PDF文档。将JavaScript添加到PDF文档可以使用类将JavaScript操作添加到PDF文档。它代表了JavaScript操作。以下是将JavaScript操作添加到现有PDF文档的步骤。第1步:加载现有的PDF文档使用类的静态方法加载现有的PDF文档。此方法接受一个文件对
无法使用java apache pdfbox从PDF中提取特定坐标的值

我的任务是从PDF中提取特定坐标的文本。我使用Apache Pdfbox客户端进行数据提取。为了从PDF中获取x、y、高度和宽度坐标，我使用PDF x更改工具，单位为毫米。当我在矩形中传递值时，值不是空值。请建议我的方法是否正确...

使用PDFBox从PDF文档中读取特定页面

相关阅读

相关文章

相关问答

相关工具

相关文档