在不更改XML的情况下解析Java中包含HTML实体的XML文件

左劲

2023-03-14

问题内容：

我必须解析Java中的一堆XML文件，这些文件有时且无效地包含HTML实体，例如—，>等等。我了解解决此问题的正确方法是在解析之前向XML文件添加合适的实体声明。但是，我无法做到这一点，因为我无法控制那些XML文件。

每当Java XML解析器遇到这样的实体时，是否存在我可以重写的某种回调？我无法在API中找到一个。

我想使用：

DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();

DocumentBuilder parser = dbf.newDocumentBuilder();
Document        doc    = parser.parse( stream );

我发现可以resolveEntity在中重写org.xml.sax.helpers.DefaultHandler，但是如何将其与更高级别的API一起使用？

这是一个完整的示例：

public class Main {
    public static void main( String [] args ) throws Exception {
        DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
        DocumentBuilder parser = dbf.newDocumentBuilder();
        Document        doc    = parser.parse( new FileInputStream( "test.xml" ));
    }

}

与test.xml：

<?xml version="1.0" encoding="UTF-8"?>
<foo>
    <bar>Some&nbsp;text &mdash; invalid!</bar>
</foo>

产生：

[Fatal Error] :3:20: The entity "nbsp" was referenced, but not declared.
Exception in thread "main" org.xml.sax.SAXParseException; lineNumber: 3; columnNumber: 20; The entity "nbsp" was referenced, but not declared.

更新：我一直在使用调试器在JDK源代码中四处逛逛，伙计，这是多少意大利面。我不知道那里有什么设计，或者是否有一个。一层洋葱可以互相叠放多少层？

他们的关键类似乎是com.sun.org.apache.xerces.internal.impl.XMLEntityManager，但是我找不到任何可以在使用前向其中添加内容的代码，或者试图不通过该类而尝试解析实体的代码。

问题答案：

为此，我将使用像Jsoup这样的库。我在下面测试了以下内容，并且可以正常工作。我不知道这是否有帮助。可以在这里找到： http

//jsoup.org/download

public static void main(String args[]){

String html = "<?xml version=\"1.0\" encoding=\"UTF-8\"?><foo>" + 
              "<bar>Some&nbsp;text &mdash; invalid!</bar></foo>";
Document doc = Jsoup.parse(html, "", Parser.xmlParser());

for (Element e : doc.select("bar")) {
    System.out.println(e);
}

}

结果：

<bar>
 Some&nbsp;text — invalid!
</bar>

从文件加载可以在这里找到：

http://jsoup.org/cookbook/input/load-document-from-
file

在不更改XML的情况下解析Java中包含HTML实体的XML文件

相关阅读

相关文章

相关问答

相关工具

相关文档