当前位置：首页 > 面试题库 >

如何使用Apache PDFBox从PDF文件提取文本

关学

2023-03-14

问题内容：

我想使用Apache PDFBox从给定的PDF文件中提取文本。

我写了这段代码：

PDFTextStripper pdfStripper = null;
PDDocument pdDoc = null;
COSDocument cosDoc = null;
File file = new File(filepath);

PDFParser parser = new PDFParser(new FileInputStream(file));
parser.parse();
cosDoc = parser.getDocument();
pdfStripper = new PDFTextStripper();
pdDoc = new PDDocument(cosDoc);
pdfStripper.setStartPage(1);
pdfStripper.setEndPage(5);
String parsedText = pdfStripper.getText(pdDoc);
System.out.println(parsedText);

但是，出现以下错误：

Exception in thread "main" java.lang.NullPointerException
at org.apache.fontbox.afm.AFMParser.main(AFMParser.java:304)

我在类路径中添加了pdfbox-1.8.5.jar和fontbox-1.8.5.jar。

编辑

我添加System.out.println("program starts");到程序的开头。

我运行了它，然后出现了与上述相同的错误，并且program starts未出现在控制台中。

因此，我认为我对类路径或其他东西有疑问。

谢谢。

问题答案：

我执行了您的代码，它工作正常。也许您的问题与FilePath您提交的文件有关。我将pdf放入C盘，并对文件路径进行了硬编码。这是我的代码：

// PDFBox 2.0.8 require org.apache.pdfbox.io.RandomAccessRead
// import org.apache.pdfbox.io.RandomAccessFile;

public class PDFReader{
    public static void main(String args[]) throws IOException {
        PDFTextStripper pdfStripper = null;
        PDDocument pdDoc = null;
        File file = new File("C:/my.pdf");
        PDFParser parser = new PDFParser(new FileInputStream(file));
        parser.parse();
        try (COSDocument cosDoc = parser.getDocument()) {
            pdfStripper = new PDFTextStripper();
            pdDoc = new PDDocument(cosDoc);
            pdfStripper.setStartPage(1);
            pdfStripper.setEndPage(5);
            String parsedText = pdfStripper.getText(pdDoc);
            System.out.println(parsedText);
        }
    }
}

类似资料：

如何从PDF文件中提取文本？

问题内容：我正在尝试使用提取此 PDF文件中包含的文本。我正在使用PyPDF2模块，并具有以下脚本：运行代码时，得到以下输出，该输出与PDF文档中包含的输出不同：如何提取PDF文档中的文本？问题答案：要从PDF提取文本，请使用以下代码
如何从PDF文件提取图像？

问题内容：我需要从服务器上的PDF文件中提取所有图像。我不想要PDF页面，只想要原始尺寸和分辨率的图像。如何使用Perl，PHP或任何其他基于UNIX的应用程序（我将使用PHP的exec函数调用它）来做到这一点？问题答案： pdfimages就是这样做的。它是poppler- utils和xpdf-utils软件包的一部分。从联机帮助页： Pdfimages将可移植文档格式（PDF）文件中
使用iText从pdf文件中提取文本列

问题内容：我需要使用iText从pdf文件中提取文本。问题是：一些pdf文件包含2列，当我提取文本时，我得到一个文本文件，其中的列作为结果合并（即同一行中两列的文本）这是代码：你能帮我完成这个任务吗？问题答案：我是iText文本提取子系统的作者。您需要做的是开发自己的文本提取策略（如果您看一下如何实现的话，就会发现您可以提供可插拔的策略）。您将如何确定列的开始和停止位置完全取决于您-
如何从PDF文件提取文本和文本坐标？

问题内容：我想使用PDFMiner从PDF文件中提取所有文本框和文本框坐标。其他许多Stack Overflow帖子都介绍了如何以有序方式提取所有文本，但是我该如何做获取文本和文本位置的中间步骤呢？给定一个PDF文件，输出应类似于：问题答案：换行符在最终输出中转换为下划线。这是我发现的最小工作解决方案。
如何从PDF文档中提取文本？

问题内容：如何使用PHP 从PDF文档中提取文本？（我不能使用其他工具，我没有root用户访问权限）我发现一些函数可用于纯文本，但是它们不能很好地处理Unicode字符： http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf- data-extraction-437.html 问题答案：下载 c
如何使用pdfbox从pdf提取粗体文本？

问题内容：我正在使用Apache pdfbox提取文本。我可以从pdf中提取文本，但我不知道该单词是否为粗体？（代码建议会很好！！！）这是从pdf提取纯文本的代码，可以正常工作。问题答案：的结果是纯文本。因此，将其提取后为时已晚。但是，您可以覆盖某些方法，只允许根据您的意愿格式化的文本通过。在这种情况下，您必须覆盖在您的替代中，您检查所讨论的文本是否满足您的要求（包含有关所讨论文本的很多

相关阅读

如何从PDF文档中提取文本？如何使用pdfbox从pdf提取粗体文本？使用Python中的PDFMiner从PDF文件提取文本？用Javascript从pdf提取文本使用Python从HTML文件中提取文本

相关文章

PDFBox加密PDF文档 PDFBox创建PDF文档 C++ getline()：从文件中读取一行字符串 VBA文本文件 PDFBox PDF文档中的JavaScript

相关问答

如何从.jar文件读取PDF 如何使用java流从web获取PDF文件如何从中提取文件。obb文件？从PDF文件中的所需页面提取文本从PDF图像中提取文本

相关工具

利用QuickLook查看文件自动文字提示列表邮件发送Document文件使用Shell脚本批量打包生成可配置的.ipa文件文件安全卫士

相关文档

StackExchange.Redis 中文使用文档 React 使用文档 zDoc 使用文档 Apifox 使用文档 ApiPost 使用文档