问题：

使用PDFBox 2.0.2从PDF中提取文本缺少类PDFTextStripper（）

闻人修明

2023-03-14

我已经在java中使用PDFBox 1.8.10实现了简单的文本提取方法。由于某些原因，我必须将库升级到PDFBox 2.0.2。可能已删除PDFTextStripper（）方法，或在新版本中找到另一个包。有没有办法解决这个问题？或者你能建议另一种从PDF获取文本的方法吗？

这是我的代码：

public String extractTextFromPdf() {
     File jInputFile = new File("c:/lorem/ipsum.pdf");
     PDDocument PDDoc = PDDocument.load(jInputFile ); 
     String strContent = new PDFTextStripper().getText(PDDoc);
     PDDoc.close();
     return strContent;
}

提前谢谢。

共有1个答案

须新

2023-03-14

试试这个吧

{
    PDDocument document = null;
    document = PDDocument.load(new File("test.pdf"));
    document.getClass();
    if (!document.isEncrypted()) {
        PDFTextStripperByArea stripper = new PDFTextStripperByArea();
        stripper.setSortByPosition(true);
        PDFTextStripper Tstripper = new PDFTextStripper();
        String st = Tstripper.getText(document);
        System.out.println("Text:" + st);
    }
} catch (Exception e) {
    e.printStackTrace();
}`

类似资料：

用Javascript从pdf提取文本

问题内容：我想知道是否可以仅使用Javascript将文本包含在PDF文件中？如果是，谁能告诉我如何？我知道有一些服务器端的Java，C＃等库，但我宁愿不使用服务器。谢谢问题答案：这是一个古老的问题，但是由于pdf.js多年来一直在发展，所以我想给出一个新的答案。也就是说，它可以在本地完成，而无需涉及任何服务器或外部服务。新的pdf.js具有一个函数：page.getTextContent
使用iText从pdf文件中提取文本列

问题内容：我需要使用iText从pdf文件中提取文本。问题是：一些pdf文件包含2列，当我提取文本时，我得到一个文本文件，其中的列作为结果合并（即同一行中两列的文本）这是代码：你能帮我完成这个任务吗？问题答案：我是iText文本提取子系统的作者。您需要做的是开发自己的文本提取策略（如果您看一下如何实现的话，就会发现您可以提供可插拔的策略）。您将如何确定列的开始和停止位置完全取决于您-
使用Python中的PDFMiner从PDF文件提取文本？

问题内容：我正在寻找有关如何使用带有Python的PDFMiner从PDF文件提取文本的文档或示例。看来PDFMiner更新了他们的API，我发现的所有相关示例都包含过时的代码（类和方法已更改）。我发现的那些使从PDF文件提取文本的任务更加容易的库正在使用旧的PDFMiner语法，因此我不确定如何执行此操作。照原样，我只是在查看源代码，以查看是否可以解决。问题答案：这是一个使用当前版
从PDF图像中提取文本

假设我的用户去了他们办公室的扫描仪。扫描仪能够生成扫描文档的PDF。这基本上就是我拥有的文件类型。我想做的是从这个PDF中提取文本。这不是“第一代”pdf，因为文本没有嵌入到pdf中。文本嵌入在PDF中的图像中。 PDFBox的iText中是否有允许检索此数据的功能？如果可能的话，我正在尝试避免对图像进行OCR。我希望IText或PDFBox中有一些内置的东西可以做到这一点。请注意，我不是在谈
PDF 提取中缺少表格布局信息

我已经研究了从PDF进行文本提取/数据提取，并使用了其他一些堆栈溢出答案来寻求帮助，我设置的是Tika通过自定义ContentHandlerDecorator解析pdf，该自定义ContentHandlerDecorator使用sax事件来解析内容。我遇到了一个问题，虽然在 PDF 查看器中查看 pdf 时包含一个按行和列排列的数据表，但该信息似乎没有从 pdf 中提取，或者我没有看到如何使用 t
如何从PDF文件中提取文本？

问题内容：我正在尝试使用提取此 PDF文件中包含的文本。我正在使用PyPDF2模块，并具有以下脚本：运行代码时，得到以下输出，该输出与PDF文档中包含的输出不同：如何提取PDF文档中的文本？问题答案：要从PDF提取文本，请使用以下代码

使用PDFBox 2.0.2从PDF中提取文本缺少类PDFTextStripper（）

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档