问题：

如何使用java从pdf文件中获取原始文本

闻人宏盛

2023-03-14

我有一些pdf文件，使用pdfbox我已经将它们转换为文本并存储到文本文件中，现在我要从文本文件中删除它们

超链接

我希望按如下方式逐行获取有效文本：

我们提出了一种从纯文本中提取的多词概念词进行本体学习的方法OntoGain。OntoGain遵循一个由不同处理层定义的本体学习过程。在普通术语提取的基础上，通过对提取的概念进行聚类，形成概念层次结构。然后，衍生术语“分类法”将丰富非分类关系。已经研究了几种最先进的方法来实现每一层。OntoGain基于多词术语概念，因为多词或复合术语比普通的单词术语具有更坚实和独特的语义。我们选择了层次聚类方法和形式概念分析（FCA）算法来构建术语分类法。此外，还采用了关联规则算法来揭示非分类关系。还实现了一种方法，该方法尝试在关系的概念之间执行最合适的泛化级别。为了证明概念，实现了一个系统原型。OntoGain允许使用Jena语义Web框架1将派生的本体转换为OWL。将OntoGain应用于医学和计算机语料库这两个独立的数据源，并将其结果与Text2Onto（一种最先进的本体学习方法）获得的类似结果进行了比较。对11.5 CCD1.1结果的分析表明，OntoGain在精确提取更正确的概念方面优于Text2Onto，而更具选择性提取更少但更合理的概念。

我怎样才能做到这一点？

共有3个答案

孔海超

2023-03-14

你可以用iText做这样的事情

//iText imports

import com.itextpdf.text.pdf.PdfReader;
import com.itextpdf.text.pdf.parser.PdfTextExtractor;

例如：

try {     
    PdfReader reader = new PdfReader(INPUTFILE);
    int n = reader.getNumberOfPages(); 
    String str=PdfTextExtractor.getTextFromPage(reader, 2); //Extracting the content from a particular page.
    System.out.println(str);
    reader.close();
} catch (Exception e) {
    System.out.println(e);
}

另一个

try {

    PdfReader reader = new PdfReader("c:/temp/test.pdf");
    System.out.println("This PDF has "+reader.getNumberOfPages()+" pages.");
    String page = PdfTextExtractor.getTextFromPage(reader, 2);
    System.out.println("Page Content:\n\n"+page+"\n\n");
    System.out.println("Is this document tampered: "+reader.isTampered());
    System.out.println("Is this document encrypted: "+reader.isEncrypted());
} catch (IOException e) {
    e.printStackTrace();
}

以上示例只能提取文本，但您需要执行更多操作才能删除超链接、项目符号、标题

唐威

2023-03-14

您好，我们可以使用Apache Tika提取pdf文件

例如：

import java.io.IOException;
import java.io.InputStream;
import java.util.HashMap;
import java.util.Map;
import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.DefaultHttpClient;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.metadata.TikaCoreProperties;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.sax.BodyContentHandler;

public class WebPagePdfExtractor {

    public Map<String, Object> processRecord(String url) {
        DefaultHttpClient httpclient = new DefaultHttpClient();
        Map<String, Object> map = new HashMap<String, Object>();
        try {
            HttpGet httpGet = new HttpGet(url);
            HttpResponse response = httpclient.execute(httpGet);
            HttpEntity entity = response.getEntity();
            InputStream input = null;
            if (entity != null) {
                try {
                    input = entity.getContent();
                    BodyContentHandler handler = new BodyContentHandler();
                    Metadata metadata = new Metadata();
                    AutoDetectParser parser = new AutoDetectParser();
                    ParseContext parseContext = new ParseContext();
                    parser.parse(input, handler, metadata, parseContext);
                    map.put("text", handler.toString().replaceAll("\n|\r|\t", " "));
                    map.put("title", metadata.get(TikaCoreProperties.TITLE));
                    map.put("pageCount", metadata.get("xmpTPg:NPages"));
                    map.put("status_code", response.getStatusLine().getStatusCode() + "");
                } catch (Exception e) {
                    e.printStackTrace();
                } finally {
                    if (input != null) {
                        try {
                            input.close();
                        } catch (IOException e) {
                            e.printStackTrace();
                        }
                    }
                }
            }
        } catch (Exception exception) {
            exception.printStackTrace();
        }
        return map;
    }

    public static void main(String arg[]) {
        WebPagePdfExtractor webPagePdfExtractor = new WebPagePdfExtractor();
        Map<String, Object> extractedMap = webPagePdfExtractor.processRecord("http://math.about.com/library/q20.pdf");
        System.out.println(extractedMap.get("text"));
    }

}

郑晗日

2023-03-14

使用pdfbox我们可以实现这一点

例子：

public static void main(String args[]) {

    PDFParser parser = null;
    PDDocument pdDoc = null;
    COSDocument cosDoc = null;
    PDFTextStripper pdfStripper;

    String parsedText;
    String fileName = "E:\\Files\\Small Files\\PDF\\JDBC.pdf";
    File file = new File(fileName);
    try {
        parser = new PDFParser(new FileInputStream(file));
        parser.parse();
        cosDoc = parser.getDocument();
        pdfStripper = new PDFTextStripper();
        pdDoc = new PDDocument(cosDoc);
        parsedText = pdfStripper.getText(pdDoc);
        System.out.println(parsedText.replaceAll("[^A-Za-z0-9. ]+", ""));
    } catch (Exception e) {
        e.printStackTrace();
        try {
            if (cosDoc != null)
                cosDoc.close();
            if (pdDoc != null)
                pdDoc.close();
        } catch (Exception e1) {
            e1.printStackTrace();
        }

    }
}

类似资料：

如何使用java流从web获取PDF文件

我需要从网上下载PDF文件，例如此链接。我必须使用流来做。使用图像，它的工作原理很好：但是对于PDf，它不起作用。可能是什么问题？
Android-如何从原始文件获取Uri？

问题内容：我正在尝试从文件夹中包含在项目中的原始文件获取。但是无论如何，我都会得到一个。该文件是一个文件，也尝试过使用，也不起作用。使用DOES 播放两个文件都可以。的回报：我的代码：错误：问题答案：尝试这种方法，用作您的inputStream。沿着这个地方：返回一个InputStream 编辑：如果您使用上述方法，请删除这些代码希望这有帮助，祝你好运！^^
如何使用Python从本地PDF文件中获取文本

请不要使用“tika”作为答案。我已经尝试了这个问题的答案：如何从PDF文件中提取文本？我有这个PDF文件，https://drive.google.com/file/d/1aUfQAlvq5hA9kz2c9CyJADiY3KpY3-Vn/view?usp=sharing，我想复制文本。输出为“提交日期：2019-10-21 16:03:36.093 |表单键：5544”，这只是文本的一部分
如何使用imap从gmail获取原始原始电子邮件正文？

我能够通过IMAP连接到Gmail并进行解析，但是在电子邮件正文中，我获得了Gmail特定的内容，例如
如何从PDF文件中提取文本？

问题内容：我正在尝试使用提取此 PDF文件中包含的文本。我正在使用PyPDF2模块，并具有以下脚本：运行代码时，得到以下输出，该输出与PDF文档中包含的输出不同：如何提取PDF文档中的文本？问题答案：要从PDF提取文本，请使用以下代码
从JTextPane获取原始文本

问题内容：在我的应用程序中，我使用来显示一些日志信息。因为我想突出显示文本中的某些特定行（例如错误消息），所以将设置为“ ”。这样，我可以设置文本格式。现在，我创建一个JButton，将其内容复制到剪贴板中。这部分很简单，但是我的问题是，当我调用时，我得到了HTML代码，例如：而不是只获取原始内容：有没有办法只获取纯文本格式的内容？还是我需要自己将HTML转换为原始文本？问题答案：基于

如何使用java从pdf文件中获取原始文本

共有3个答案

相关问答

相关文章

相关阅读

相关工具

相关文档