当前位置: 首页 > 面试题库 >

使用PDFBox从PDF文档中读取特定页面

钱选
2023-03-14
问题内容

如何使用PDFBox从PDF文档中读取特定页面(具有页码)?


问题答案:

这应该工作:

PDPage firstPage = (PDPage)doc.getAllPages().get( 0 );

如本教程的“
书签”部分中所示

更新2015年,版本2.0.0快照

似乎已将其删除并放回(?)。 getPage 在2.0.0
javadoc中。要使用它:

PDDocument document = PDDocument.load(new File(filename));
PDPage doc = document.getPage(0);

getAllPages 方法已更名
GETPAGES

PDPage page = (PDPage)doc.getPages().get( 0 );


 类似资料:
  • 主要内容:从现有的PDF文档中提取文本,第4步:关闭文档,示例在前一章中,我们已经学习了如何将文本添加到现有的PDF文档。 在本章中,我们将学习如何从现有PDF文档中读取文本。 从现有的PDF文档中提取文本 提取文本是的主要功能之一。 可以使用类的方法提取文本。 这个类从给定的PDF文档中提取所有文本。 以下是从现有PDF文档中提取文本的步骤。 第1步:加载现有的PDF文档 使用类的静态方法加载现有的PDF文档。 此方法接受一个文件对象作为参数,因为这是一个

  • 我正在尝试使用JAVA填写PDF表单,但当我尝试使用下面的代码获取字段时,列表为空。 然后我尝试使用PDFStripper读取文件 输出如下 “请稍候。。。 如果此消息最终未被文档的正确内容替换,则PDF查看器可能无法显示此类文档。 您可以通过访问升级至最新版本的Adobe Reader for Windows®、Mac或Linux®http://www.adobe.com/go/reader_d

  • 背景 我一直在开发一个程序,它可以获取一个pdf,突出显示一些单词(通过pdfbox标记注释)并保存新的pdf。 为此,我扩展了PDFTextStripper类,以覆盖writeString()方法并获取每个单词(框)的TextPositions,这样我就可以准确地知道文本在PDF文档中的坐标位置(TextPosition对象为我提供每个单词框的坐标)。然后,在此基础上,我画了一个矩形,突出显示我

  • 系统中的一些PDF文档是通过扫描创建的,其中包括OCR文本。然而,OCR没有正确执行(西里尔语和拉丁语字符混淆),尽管文档看起来可以搜索,但该信息完全不正确,无法使用。 在Adobe Acrobat Reader DC(或GoogleChrome)中查看PDF文档时,它会正确显示,但在使用PDF. js呈现文档的网页上,OCR文本会显示在前面,而不是原始文本的扫描图形呈现。 这个想法是通过从PDF

  • 主要内容:将JavaScript添加到PDF文档,示例在前一章中,我们学习了如何将图像插入到PDF文档中。 在本章中,将学习如何将JavaScript添加到PDF文档。 将JavaScript添加到PDF文档 可以使用类将JavaScript操作添加到PDF文档。 它代表了JavaScript操作。 以下是将JavaScript操作添加到现有PDF文档的步骤。 第1步:加载现有的PDF文档 使用类的静态方法加载现有的PDF文档。 此方法接受一个文件对

  • 我的任务是从PDF中提取特定坐标的文本。 我使用Apache Pdfbox客户端进行数据提取。 为了从PDF中获取x、y、高度和宽度坐标,我使用PDF x更改工具,单位为毫米。当我在矩形中传递值时,值不是空值。 请建议我的方法是否正确...