从HTML转换为DocX时如何处理特殊字符

花欣然

2023-03-14

问题内容：

我有一个使用DocX4J将html文件转换为DocX的应用程序。我在使用ç，á，é，í，ã等特殊字符时遇到问题。我在html文件中的文本字体是Arial，但是当我将它们转换为DocX时，前面提到的特殊字符将设置为calibri字体。因此，在同一个单词（例如Cláudio）中，我用Arial字体写了“
Cl”，用Calibri字体写了“á”字符，用Arial字体写了“ udio”。

我看到也许我必须在w：r中设置字体属性，但是我很难看到如何对所有已转换的文本执行此操作。另外，我在下面列出的转换代码（带有示例html）中看不到该怎么做。

关于如何进行此转换并处理这些特殊字符的任何提示或建议都非常好。

干杯。

public WordprocessingMLPackage export(String xhtml) {

WordprocessingMLPackage wordMLPackage = null;
try {
    wordMLPackage = WordprocessingMLPackage.createPackage();
    XHTMLImporter importer = new XHTMLImporterImpl(wordMLPackage);
    List<Object> content = importer.convert(xhtml,null);
    wordMLPackage.getMainDocumentPart().getContent().addAll(content);
}
catch (Docx4JException e) {
    // ...
}
return wordMLPackage;
}

<html>
<head>
<meta charset="ISO-8859-1" />
<style type="text/css">
h1 {
    page-break-before: always;
}

p, h1 {
    font-family: Arial;
    font-size: 12pt;
}

p {
    line-height: 150%;
}

h1 {
    font-weight: bold;
    line-height: 130%
}
</style>
</head>
<body>
    <h1>RESUMO<br /></h1>
<p>
    <span>Um resumo para o relatório.</span><br />
</p>
</body>
</html>

问题答案：

按照JasonPlutext给出的技巧，我在DocX4J论坛（http://www.docx4java.org/forums/docx-
java-f6/docx-to-html-and上
找到了一个如何将字体映射到XHTMLImporter的示例-back-to-
docx-t1913.html
）。

现在我的代码正在运行！请参阅下面的最终版本。

public WordprocessingMLPackage export(String xhtml) {

WordprocessingMLPackage wordMLPackage = null;
try {
    RFonts arialRFonts = Context.getWmlObjectFactory().createRFonts();
    arialRFonts.setAscii("Arial");
    arialRFonts.setHAnsi("Arial");
    XHTMLImporterImpl.addFontMapping("Arial", arialRFonts);

    wordMLPackage = WordprocessingMLPackage.createPackage();
    XHTMLImporter importer = new XHTMLImporterImpl(wordMLPackage);
    List<Object> content = importer.convert(xhtml,null);
    wordMLPackage.getMainDocumentPart().getContent().addAll(content);
}
catch (Docx4JException e) {
    // ...
}
return wordMLPackage;
}

从HTML转换为DocX时如何处理特殊字符

相关阅读

相关文章

相关问答

相关工具

相关文档