当前位置: 首页 > 文档资料 > PDFBox 中文文档 >

概述

优质
小牛编辑
135浏览
2023-12-01

可移植文档格式(PDF)是一种文件格式,有助于以独立于应用程序软件,硬件和操作系统的方式显示数据。

每个PDF文件都包含固定布局平面文档的描述,包括显示它所需的文本,字体,图形和其他信息。

有几个库可用于通过程序创建和操作PDF文档,例如 -

  • Adobe PDF Library - 该库提供C ++,.NET和Java等语言的API,使用它可以编辑,查看打印和从PDF文档中提取文本。

  • Formatting Objects Processor - 由XSL格式化对象和输出独立格式化程序驱动的开源打印格式化程序。 主要输出目标是PDF。

  • iText - 该库提供Java,C#和其他.NET语言等语言的API,使用该库我们可以创建和操作PDF,RTF和HTML文档。

  • JasperReports - 这是一个Java报告工具,可以生成PDF文档的报告,包括Microsoft Excel,RTF,ODT,逗号分隔值和XML文件。

什么是PDFBox

Apache PDFBox是一个开源Java库,支持PDF文档的开发和转换。 使用此库,您可以开发用于创建,转换和操作PDF文档的Java程序。

除此之外,PDFBox还包括一个命令行实用程序,用于使用可用的Jar文件对PDF执行各种操作。

PDFBox的功能

以下是PDFBox的显着特征 -

  • Extract Text - 使用PDFBox,您可以从PDF文件中提取Unicode文本。

  • Split & Merge - 使用PDFBox,您可以将单个PDF文件分成多个文件,并将它们合并为一个文件。

  • Fill Forms - 使用PDFBox,您可以在文档中填写表单数据。

  • Print - 使用PDFBox,您可以使用标准Java打印API打印PDF文件。

  • Save as Image - 使用PDFBox,您可以将PDF保存为图像文件,如PNG或JPEG。

  • Create PDFs - 使用PDFBox,您可以通过创建Java程序创建新的PDF文件,还可以包含图像和字体。

  • Signing - 使用PDFBox,您可以将数字签名添加到PDF文件。

PDFBox的应用

以下是PDFBox的应用 -

  • Apache Nutch - Apache Nutch是一个开源的网络搜索软件。 它建立在Apache Lucene的基础上,添加了特定于Web的内容,例如爬虫,链接图数据库,HTML和其他文档格式的解析器等。

  • Apache Tika - Apache Tika是一个工具包,用于使用现有的解析器库从各种文档中检测和提取元数据和结构化文本内容。

PDFBox的组件

以下是PDFBox的四个主要组成部分 -

  • PDFBox - 这是PDFBox的主要部分。 它包含与内容提取和操作相关的类和接口。

  • FontBox - 它包含与font相关的类和接口,使用这些类我们可以修改PDF文档的文本字体。

  • XmpBox - 包含处理XMP元数据的类和接口。

  • Preflight - 此组件用于根据PDF/A-1b标准验证PDF文件。

最后更新:

类似资料

  • PDFBox是Java实现的PDF文档协作类库,提供PDF文档的创建、处理以及文档内容提取功能,也包含了一些命令行实用工具。 主要特性包括: 从PDF提取文本 合并PDF文档 PDF 文档加密与解密 与Lucene搜索引擎的集成 填充PDF/XFDF表单数据 从文本文件创建PDF文档 从PDF页面创 建图片 打印PDF文档

  • NativeScript PdfBox Apache Pdfbox for NativeScript. This plugin allows you to extract the text from a PDF file. ALPHA version. Android only (iOS may come in the future, PR are welcome). The screenshot

  • 主要内容:PDFBox是什么?,PDFBox的特点,PDFBox的应用,PDFBox的组件可移植文档格式(PDF)是一种文件格式,有助于以独立于应用程序软件,硬件和操作系统的方式呈现数据。 每个PDF文件都包含固定布局平面文档的说明,包括显示文本,字体,图形和其他信息。 有几个库可用于通过程序创建和操作PDF文档,例如 - Adobe PDF库 - 该库提供C++,.NET和Java等语言的API,使用此库可以编辑,查看打印和从PDF文档中提取文本。 格式化对象处理器 - 由XSL格式

  • 主要内容:面向读者,前提条件,问题反馈Apache PDFBox是一个开源的Java库,支持PDF文档的开发和转换。 在本教程中,我们将学习如何使用PDFBox开发可创建,转换和操作PDF文档的Java程序。 面向读者 本教程已经为初学者准备,让他们了解PDFBox库的基础知识和应用。 本教程将帮助读者构建涉及PDF文档创建,操作和删除的应用程序。 前提条件 对于本教程,假定读者具有Java编程语言的知识和编程基础。 问题反馈 我们不

  • 当我试图用PDFBox读取PDF文件时,在PDDocument类上出现NoClassDefFound错误。以下是我得到的错误: 以下是生成错误的代码: 以下是我的进口商品,以防它们可能成为问题: 编辑:这是我用来从windows命令窗口运行程序的命令-

  • 我正在使用pdfbox 1.8,我试图用中文填写pdf表格,但我得到的只是奇怪的字符。我得到了一个ttc文件(uming.ttc),并使用字体伪造导出了ttf文件(现在我正在尝试只使用导出的字体之一)。 字体的加载是使用 我正在使用以下代码编写pdf字段(我在stackoverflow中找到了它,但目前我找不到它) 我读到pdfbox2.0支持Unicode我需要使用这个新版本吗? 使用font-