PDFBox简介
精华
小牛编辑
176浏览
2023-03-14
可移植文档格式(PDF)是一种文件格式,有助于以独立于应用程序软件,硬件和操作系统的方式呈现数据。
每个PDF文件都包含固定布局平面文档的说明,包括显示文本,字体,图形和其他信息。
有几个库可用于通过程序创建和操作PDF文档,例如 -
Adobe PDF库 - 该库提供C++,.NET和Java等语言的API,使用此库可以编辑,查看打印和从PDF文档中提取文本。
格式化对象处理器 - 由XSL格式化对象和输出独立格式化程序驱动的开源打印格式化程序。 主要输出目标是PDF。
iText - 这个库提供了Java, C# 和其他.NET语言等语言的API,使用这个库可以创建和操作PDF,RTF和HTML文档。
JasperReports - 这是一个Java报告工具,可在PDF文档中生成报告,包括Microsoft Excel,RTF,ODT,逗号分隔值和XML文件。
PDFBox是什么?
Apache PDFBox是一个开源的Java库,支持PDF文档的开发和转换。 使用这个库,可以开发创建,转换和操作PDF文档的Java程序。
除此之外,PDFBox还包含一个命令行实用程序,用于使用可用的Jar文件对PDF执行各种操作。
PDFBox的特点
下面列出PDFBox的特点 -
- 提取文本 - 使用PDFBox,可以从PDF文件中提取Unicode文本。
- 拆分和合并 - 使用PDFBox,可以将单个PDF文件分割成多个文件,并将它们合并为一个文件。
- 填写表单 - 使用PDFBox,可以将填写表单填入文档中。
- 打印 - 使用PDFBox,可以使用标准Java打印API打印PDF文件。
- 另存为图像 - 使用PDFBox,可以将PDF保存为图像文件,例如:
PNG
或JPEG
。 - 创建PDF - 使用PDFBox,可以通过创建Java程序来创建一个新的PDF文件,并且还可以包含图像和字体。
- 签名 - 使用PDFBox,可以将数字签名添加到PDF文件。
PDFBox的应用
以下是PDFBox的应用 -
Apache Nutch - Apache Nutch是一款开源的网络搜索软件。它建立在Apache Lucene的基础上,添加了一些特定于web的内容,例如:爬虫,链接图数据库,用于HTML和其他文档格式的解析器等。
Apache Tika - Apache Tika是一个使用现有解析器库从各种文档检测和提取元数据和结构化文本内容的工具包。
PDFBox的组件
以下是PDFBox的四个主要组件 -
- PDFBox - 这是PDFBox的主要部分。 这包含与内容提取和操作相关的类和接口。
- FontBox - 包含与字体相关的类和接口,使用这些类可以修改PDF文档的文本字体。
- XmpBox - 包含处理XMP元数据的类和接口。
- Preflight - 此组件用于根据PDF/A-1b标准验证PDF文件。