问题：

使用Apache POI从Word文档中提取段落

汪迪

2023-03-14

正如您在word文档中看到的，有许多带有要点的问题。现在，我正在尝试使用apache POI从文件中提取每个段落。这是我当前的代码

    public static String readDocxFile(String fileName) {
    try {
        File file = new File(fileName);
        FileInputStream fis = new FileInputStream(file.getAbsolutePath());
        XWPFDocument document = new XWPFDocument(fis);

        List<XWPFParagraph> paragraphs = document.getParagraphs();
        String whole = "";
        for (XWPFParagraph para : paragraphs) {
            System.out.println(para.getText());
            whole += "\n" + para.getText();
        }
        fis.close();
        document.close();
        return whole;
    } catch (Exception e) {
        e.printStackTrace();
        return "";
    }
    }

上述方法的问题在于它打印的是每一行而不是段落。此外，项目符号也从提取的整个字符串中删除。整个返回一个纯字符串。

谁能解释一下我做错了什么。也请建议如果你有一个更好的想法来解决它。

共有1个答案

陆文斌

2023-03-14

上面的代码是正确的，我在我的系统上运行了你的代码，给出了每一个段落，我认为在docx文件上写内容的问题，每当我用项目符号写内容时，使用“Enter”键，比中断我当前的项目符号和上面的代码使断线作为saparate段落。

下面我写的代码示例可能对你有用，看看这里我使用Set datastructure来忽略来自docx的重复问题。

apache poi的依赖关系如下所示

<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-ooxml</artifactId>
    <version>3.7</version>
</dependency>

package com;

import java.io.File;
import java.io.FileInputStream;
import java.util.HashSet;
import java.util.List;
import java.util.Set;

import org.apache.poi.xwpf.usermodel.XWPFDocument;
import org.apache.poi.xwpf.usermodel.XWPFParagraph;
import org.springframework.util.ObjectUtils;

public class App {

    public static void main(String...strings) throws Exception{
        Set<String> bulletPoints = fileExtractor(); 
        bulletPoints.forEach(point -> {
            System.out.println(point);
        });
    }

    public static Set<String> fileExtractor() throws Exception{
        FileInputStream fis = null;
        try {
            Set<String> bulletPoints = new HashSet<>();
            File file = new File("/home/deskuser/Documents/query.docx");
            fis = new FileInputStream(file.getAbsolutePath());
            XWPFDocument document = new XWPFDocument(fis);

            List<XWPFParagraph> paragraphs = document.getParagraphs();
            paragraphs.forEach(para -> {
                System.out.println(para.getText());
                if(!ObjectUtils.isEmpty(para.getText())){
                    bulletPoints.add(para.getText());
                }
            });
            fis.close();

            return bulletPoints;
        } catch (Exception e) {
            e.printStackTrace();
            throw new Exception("error while extracting file.", e);
        }finally{
            if(!ObjectUtils.isEmpty(fis)){
                fis.close();
            }
        }
    }
}

类似资料：

使用VBA从Word文档中提取图像

我需要循环一些word文档，并从word文档中提取图像，并将其保存在单独的文件夹中。我尝试过将它们保存为超文本标记语言文档的方法，但它不太适合我的需求。现在，我使用inlineshapes对象循环浏览图像，然后将它们复制粘贴到publisher文档上，然后将它们保存为图像。但是，在运行脚本时，我会遇到运行时自动化错误。对于使用Publisher运行时库，我尝试了早期绑定和晚期绑定，但都遇到了错误
使用ApachePOI为word文档中的段落创建编号标题

在使用ApachePOI写入word文档时，对于必须根据某个“计数”动态复制段落的位置，这些段落的标题必须按照章节顺序编号。假设它是word文档中的第7节，那么其中每个段落的标题应按顺序编号为7.1、7.2等。尽管我看到了一些解决方案，其中考虑了word文档的xml，并使用了XWPFN编号。还有其他更简单的方法吗？或如果我的word模板已经有了一个带有编号标题的段落，并且我必须多次复制相同
ApachePOI——Word（docx）文档中的多列

我正在尝试创建一个包含多列的word文档。这样做（而不是使用表）的原因是，数据将跨越多个页面，在添加到新页面之前，我只能用列填充整个页面。可以用ApachePOI实现吗？谢谢
ApachePOI合并Word文档中表中的单元格

我需要一个表格，第一行和第二行的单元格合并在一起。大概是这样的：桌子的图片（我不能张贴图片）http://i.stack.imgur.com/dAO6j.png 我一直在复习与本主题相关的所有问题，并找到了一些将网格跨度应用于单元的答案，但我找不到真正的解决方案。以下是我从谷歌和本网站获得的示例代码：我从这段代码中得到的信息如下：我试图用
使用ApachePOI获取java中word的缩略图

我在jsf中学习一个网络共享项目。在这个项目中，用户可以上传文档，如. doc、. pdf、. ppt等。我想将该文档的第一页显示为缩略图。经过一番谷歌搜索，我找到了Apache POI。有人对我的问题有什么建议吗？我如何返回word doc第一页的缩略图图像？我尝试了这段代码。这段代码只得到word doc包含的第一张图片：
Apache POI：在java中从word文档（docx）中提取一个段落和随后的表

示例单词内容为 Apache POI提供了API来给出段落和表的列表，但我无法阅读段落（测试用例）并立即查找该段落后面的表。我尝试使用XWPFWordExtractor（读取所有文本）、bodyElementIterator（遍历所有主体元素），但大多数都给出了方法，该方法给出了段落列表和方法，该方法给出了文档中的所有表的列表。我如何浏览所有段落，停在标题‘测试用例’之后的段落（第4段），然后

使用Apache POI从Word文档中提取段落

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档