当前位置: 首页 > 软件库 > 程序开发 > PDF工具包 >

PDFBox

Java 的 PDF 处理类库
授权协议 Apache
开发语言 Java
所属分类 程序开发、 PDF工具包
软件类型 开源软件
地区 不详
投 递 者 申屠俊发
操作系统 跨平台
开源组织 Apache
适用人群 未知
 软件概览

PDFBox是Java实现的PDF文档协作类库,提供PDF文档的创建、处理以及文档内容提取功能,也包含了一些命令行实用工具。

主要特性包括:

  • 从PDF提取文本

  • 合并PDF文档

  • PDF 文档加密与解密

  • Lucene搜索引擎的集成

  • 填充PDF/XFDF表单数据

  • 从文本文件创建PDF文档

  • 从PDF页面创 建图片

  • 打印PDF文档

  • 1首先,导入jar (maven方式导入) PS: 这个jar里面囊括了所有的pdfbox操作工具类,导入这一个就够了 <dependency> <groupId>org.apache.pdfbox</groupId> <artifactId>pdfbox-app</artifactId> <version>1

  • 目录 概述 开发环境 pom.xml 依赖 实例 1.全文解析 1.1 一次获取整个文件的内容 1.2 分页获取文字的内容 1.3 分页获取文字和图片  2.区域解析 概述 Apache PDFBox 是遵循Apache License v2.0的Java开源类库。用于操作PDF文档,可以创建新PDF文档,维护现有的PDF文档,或者从PDF文档中提取内容,支持生成加密的PDF文件,以及对PDF文件

  • PDF常用的三种加密方式: 口令加密 证书加密 Adobe LiveCycle Rights Management 口令加密: 作为第一代PDF安全加密方式,到现在也一直广泛应用。口令加密分为:用户密码(user password)、所有者密码(owner password)。 用户密码:要求用户在打开文件时,需要输入密码 所有者密码:打开PDF文件并进行阅读,并不需要所有者密码,只有更改权限设置

  • 引入依赖 <dependency> <groupId>org.apache.pdfbox</groupId> <artifactId>pdfbox</artifactId> <version>2.0.1</version> </dependency> <dependency>

  • package com.orange; import java.awt.Rectangle; import java.awt.geom.Rectangle2D; import java.io.File; import java.util.Iterator; import javax.imageio.ImageIO; import org.apache.pdfbox.text.PDFTextS

  • 非原创,参考网址点击打开链接,记载是为了以后自己方便查找 所需jar包:pdfbox-2.0.5.jar fontbox-2.0.5.jar commons-logging-1.1.1.jar  maven依赖:   <dependency>                      <groupId>org.apache.pdfbox</groupId>                    

  • <dependency> <groupId>org.apache.pdfbox</groupId> <artifactId>pdfbox</artifactId> <version>2.0.14</version> </dependency> public static File mergeDocuments(

  • package org.simple2odfbox.demo; import java.io.IOException; import java.util.List; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.pdmodel.PDPage; import org.apache.pdfbox.pdmode

  • 最近在使用lucene建立索引时,要使用PDFBOX提取PDF文件,但结果总是报错: java.lang.Throwable: Warning: You did not close the PDF Document 这个问题很烦人,从第三方类库例出来。 在网上记录下找到的解决办法: 原来的代码: StringBuffer content = new StringBuffer(“”); // 内

  • 使用PDFbox加密pdf文件的方法 1.引入依赖 <!-- pdfBox加密 --> <dependency> <groupId>org.apache.pdfbox</groupId> <artifactId>pdfbox</artifactId> <version>2.0.1</version> </dependency> 2.加密解密 public class PdfBoxUtil

  • 前期准备 在Java项目中导入comons-logging-1.2.jar、fontbox-2.0.13.jar以及pdfbox-2.0.13.jar。 功能点 创建空白pdf public static void createPDF(String targetPath){ PDDocument doc = new PDDocument(); PDPage pag

  • 类型都是PDRectangle 1、BBox 内容的边界框。 2、*MediaBox 以默认用户空间单位表示的矩形,用于定义要在其上显示或打印页面的物理介质的边界,即打印纸张的尺寸。 3、CropBox 以默认用户空间单位表示的矩形,用于定义默认用户空间的可见区域。 显示或打印页面时,其内容将被剪切(裁剪)到该矩形。 4、BleedBox 以默认用户空间单位表示的矩形,用于定义在生产环境中输出时页

  • maven依赖 <dependency> <groupId>org.apache.pdfbox</groupId> <artifactId>pdfbox-app</artifactId> <version>2.0.19</version> </dependency> 代码实现 public class ImgSynthesisPdfUti

  • 先来放松一下: 面试牛人        面试官:熟悉哪种语言   应聘者:Java。   面试官:知道什么叫类么   应聘者:我这人实在,工作努力,不知道什么叫累   面试官:知道什么是包?   应聘者:我这人实在 平常不带包 也不用公司准备了   面试官:知道什么是接口吗?   应聘者:我这个人工作认真。从来不找借口偷懒   M:知道什么是继承么   Y:我是孤儿没什么可以继承的   M:知道什

  • <!-- https://mvnrepository.com/artifact/org.apache.pdfbox/pdfbox --> <dependency> <groupId>org.apache.pdfbox</groupId> <artifactId>pdfbox</artifactId> <version>2.0.12</version> </dependen

  • 这两天在写自己的桌面搜索程序,陆续把自己所碰到的一些问题写一下,防止以后遗忘,再犯同样的错误。  现在先说一下PDFBox对文本的提取,我最开始的时候对于文本的提取是按照下面的方式来写的:   COSDocument cosDoc = null;   FileInputStream is = new FileInputStream(file);  PDFParser parser = new PD

  • 将一份18M的PDF文件转成图片,因为清晰度的需要设置DPI为300,转换后体积44M,花了35秒!有没有大佬有优化的办法,太难顶了。   /** * pdf 转换为图片 * @param pdfPath pdf文件路径 * @param imgPath 图片导出目标路径 */ public static void getImgInPDF(S

  • 原文地址 package com.wss.pdfbox; import java.io.File; import java.io.FileInputStream; import java.io.InputStream; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.

  • 前言         有时候会有这样的需求,需要将pdf中的字解析出来,存入库中,查看了一下pdfbox的文档,大概有两种方案。 一、全文解析         当一个pdf中全是文字并且排列规整的时候,直接全文解析出来就好,以下是全文解析代码: public String getTextFromPdf() throws Exception { String pdfPath = “pdf文件

  • package com.tanling.act; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import org.pdfbox.pdfparser.PDFParser; import org.pdfbox.pdmodel.PDDocument;

 相关资料
  • 是否有可能使用TYPO3的图像操作工具在TYPO3后端裁剪图像,以便在前端也为PDF文件使用? 图像操作工具只显示消息: 无法确定图像尺寸。 无法提供图像操作,因为图像的原始尺寸未知。 也许我需要另一个服务器端模块?但是我找不到关于这个话题的任何信息。

  • 我有这样的场景,当点击一个按钮时,它打开了一个基于PDF文件的窗口: 我使用的是Gecko驱动程序版本-21.0Firefox版本-61.0.1 Selenium独立服务器-3.13 我无法切换到基于PDF文件的窗口获取错误: 我想用最新的壁虎驱动程序-21.0来处理它

  • 我正在使用Apache PDFBox java库创建PDF。但是,我在渲染多行文本(换行)时面临问题: 我面临的问题是,文本的后半部分(text1,text2)没有在PDF文件中呈现。pdf中仅显示图像和第一行ABC管理系统。 为了生成多行文本,我参考了:PDFBox-添加多行。 我不理解setLeading的功能,因此将其注释掉并重试,但文本仍然没有呈现出来。

  • 当其中一个外星人击中火箭时,我希望游戏停止。在上,我不断得到错误“该方法必须返回一个结果类型Boolean。”

  • CodeIgniter 的图像处理类可以使你完成以下的操作: 调整图像大小 创建缩略图 图像裁剪 图像旋转 添加图像水印 可以很好的支持三个主流的图像库:GD/GD2, NetPBM, 和 ImageMagick。 注意: 添加水印操作仅仅在使用GD/GD2时可用。另外,即使支持其他的图像处理库,但是为了计算图像的属性,GD是必需的。然而,将使用你制定的库来进行图像处理操作。 初始化类 像 Cod

  • CodeIgniter 的图像处理类可以使你完成以下的操作: 调整图像大小 创建缩略图 图像裁剪 图像旋转 添加图像水印 可以很好的支持三个主流的图像库:GD/GD2、NetPBM 和 ImageMagick 。 注解 添加水印操作仅仅在使用 GD/GD2 时可用。另外,即使支持其他的图像处理库, 但是为了计算图像的属性,GD 仍是必需的。然而在进行图像处理操作时, 还是会使用你指定的库。 初始化

  • 这是凯文帮助后的代码。

  • 问题内容: 我有一个班级,想与一个池中的子进程以只读方式共享,所以我准备了一个班级的代理,但是没有用。以下是我的问题的简化示例。 当我运行此代码时,我得到: 看来我无法直接通过代理访问共享库的属性。是使用获取属性的方法的唯一方法,还是我做错了什么? 问题答案: 通常,由其使用的对象及其子类仅公开其引用的对象中的 方法 ,而不公开属性。现在,这里提供,它提供了一个子类,该子类 确实 提供对属性而不是