Java：Apache POI：我可以从MS Word（.doc）文件中获取纯文本吗？

江建明

2023-03-14

问题内容：

使用Apache POI时，我（以编程方式）从MS Word文件获取的字符串与使用MS Word打开文件时看到的文本不同。

使用以下代码时：

File someFile = new File("some\\path\\MSWFile.doc");
InputStream inputStrm = new FileInputStream(someFile);
HWPFDocument wordDoc = new HWPFDocument(inputStrm);
System.out.println(wordDoc.getText());

输出是一行，其中包含许多“无效”字符（是，“框”）和许多不需要的字符串，例如“ FORMTEXT”，“ HYPERLINK \l "_Toc##########"”（“＃”为数字），“ PAGEREF _Toc########## \h 4”等。

以下代码“修复”了单行问题，但保留了所有无效字符和不需要的文本：

File someFile = new File("some\\path\\MSWFile.doc");
InputStream inputStrm = new FileInputStream(someFile);
WordExtractor wordExtractor = new WordExtractor(inputStrm);
for(String paragraph:wordExtractor.getParagraphText()){
  System.out.println(paragraph);
}

我不知道我是否使用错误的方法来提取文本，但这就是我在查看POI快速指南时想到的。如果我是，正确的方法是什么？

如果输出正确，是否有消除多余文本的标准方法，还是我必须编写自己的过滤器？

问题答案：

有两种选择，一种直接在Apache POI中提供，另一种通过Apache Tika（内部使用Apache POI）提供。

第一种选择是使用WordExtractor，但是stripFields(String)在调用它时将其包装到。这将删除包含在文本中的基于文本的字段，例如您所看到的HYPERLINK。您的代码将变为：

NPOIFSFileSystem fs = new NPOIFSFileSytem(file);
WordExtractor extractor = new WordExtractor(fs.getRoot());

for(String rawText : extractor.getParagraphText()) {
String text = extractor.stripFields(rawText);
System.out.println(text);
}

另一种选择是使用Apache
Tika
。Tika为多种文件提供文本提取和元数据，因此相同的代码也适用于.doc，.docx，.pdf和许多其他文件。为了获得Word文档的纯净纯文本（如果愿意，您还可以获取XHTML），您可以执行以下操作：

TikaConfig tika = TikaConfig.getDefaultConfig();
TikaInputStream stream = TikaInputStream.get(file);
ContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
tika.getParser().parse(input, handler, metadata, new ParseContext());
String text = handler.toString();

Java：Apache POI：我可以从MS Word（.doc）文件中获取纯文本吗？

相关阅读

相关文章

相关问答

相关工具

相关文档