使用Java和UTF-8编码产生有效的XML

南宫凡

2023-03-14

问题内容：

我正在使用JAXP生成和解析XML文档，从数据库中加载了某些字段。

序列化XML的代码：

DocumentBuilder builder = DocumentBuilderFactory.newInstance().newDocumentBuilder();
Document doc = builder.newDocument();
Element root = doc.createElement("test");
root.setAttribute("version", text);
doc.appendChild(root);

DOMSource domSource = new DOMSource(doc);
TransformerFactory tFactory = TransformerFactory.newInstance();

FileWriter out = new FileWriter("test.xml");
Transformer transformer = tFactory.newTransformer();
transformer.setOutputProperty(OutputKeys.INDENT, "yes");
transformer.setOutputProperty(OutputKeys.ENCODING, "UTF-8");
transformer.transform(domSource, new StreamResult(out));

解析XML的代码：

DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
factory.setNamespaceAware(true);
DocumentBuilder builder = factory.newDocumentBuilder();
Document doc = builder.parse("test.xml");

我遇到以下异常：

[Fatal Error] test.xml:1:4: Invalid byte 1 of 1-byte UTF-8 sequence.
Exception in thread "main" org.xml.sax.SAXParseException: Invalid byte 1 of 1-byte UTF-8 sequence.
    at org.apache.xerces.parsers.DOMParser.parse(Unknown Source)
    at org.apache.xerces.jaxp.DocumentBuilderImpl.parse(Unknown Source)
    at javax.xml.parsers.DocumentBuilder.parse(Unknown Source)
    at com.test.Test.xml(Test.java:27)
    at com.test.Test.main(Test.java:55)

字符串文本包括u-umlaut和o-umlaut（字符代码0xFC和0xF6）。这些是导致错误的字符。当我自己逃脱String时使用＆＃xFC;
和＆＃xF6; 然后问题就解决了。当我写出XML时，其他实体会自动编码。

如何在不自己替换这些字符的情况下正确书写/读取输出？

问题答案：

使用FileOutputStream而不是FileWriter。

后者使用自己的编码，几乎可以肯定不是UTF-8（取决于您的平台，它可能是Windows-1252或IS-8859-1）。

编辑（现在有时间）：

不带序的XML文档被允许编码为UTF-8或UTF-16。对于序言，可以指定其编码（序言只能包含US-ASCII字符，因此序言始终可读）。

读者处理字符；它将解码基础InputStream的字节流。结果，当您将Reader传递给解析器时，您将告诉您已经处理了编码，因此解析器将忽略序言。当您传递一个InputStream（读取字节）时，它不会进行此假设，而是会在序言中定义编码-
如果不存在，则默认为UTF-8 / UTF-16。

我从未尝试读取以UTF-16编码的文件。我怀疑解析器将寻找字节顺序标记（BOM）作为文件的前2个字节。

使用Java和UTF-8编码产生有效的XML

相关阅读

相关文章

相关问答

相关工具

相关文档