当前位置: 首页 > 工具软件 > x-easypdf > 使用案例 >

x-easypdf 图像和文本提取

仲孙华奥
2023-12-01
XEasyPdfDocument dos=XEasyPdfHandler.Document.load(pdfFile);
XEasyPdfDocumentExtractor extractor = dos.extractor();
// 提取图片images
List<BufferedImage> dataImages=new ArrayList<>();
extractor.extractImage(dataImages);
System.out.println("dataImages:"+dataImages.size());
// 提取文本
List<String> dataList = new ArrayList<>();
extractor.extractText(dataList);
System.out.println("dataList = " + dataList.size());
//文档分析器 用于获取文档分析器,以进行文档文本、图片及书签分析操作
XEasyPdfDocumentAnalyzer analyzer=dos.analyzer();
analyzer.analyzeText(0).getTextInfoList().forEach(textInfo->{
    System.out.println(textInfo.getTextContent());
});
 类似资料: