在Java中针对HTML使用XPath包含

聂炜

2023-03-14

问题内容：

我正在使用Java程序内的XPath从HTML页面抓取值以获取特定标签，并偶尔使用正则表达式来清理接收到的数据。

经过一番研究，我找到了HTML
Cleaner（http://htmlcleaner.sourceforge.net/）作为将原始HTML解析为良好XML格式的最可靠方法。但是，HTML
Cleaner仅支持XPath 1.0，我发现自己需要“包含”之类的功能。例如，在这段XML中：

<div>
  <td id='1234 foo 5678'>Hello</td>
</div>

我希望能够使用以下XPath获得文本“ Hello”：

//div/td[contains(@id, 'foo')]/text()

有什么办法可以获得此功能？我有几个想法，但是如果我不需要：

如果有一种方法可以调用HTML Cleaner的validateXPath并返回一个TagNode（我没有找到），则可以在返回的TagNode上使用XML序列化器，并将XPath链接在一起以实现所需的功能。
我可以使用HTML Cleaner将其清理为XML，将其序列化为字符串，然后将其与另一个XPath库一起使用，但是找不到适合字符串的Java XPath评估器。
使用诸如getElementsByAttValue之类的TagNode函数，我基本上可以重新创建XPath评估并使用String.contains插入包含功能。

简短的问题：有什么方法可以在现有Java库中的HTML上使用XPath包含的内容？

问题答案：

关于此：

我可以使用HTML Cleaner将其清理为XML，将其序列化为字符串，然后将其与另一个XPath库一起使用，但是找不到适合字符串的Java
XPath评估器。

这正是我所要做的（除非您不需要对字符串进行操作（请参见下文））。

许多HTML解析器 试图做太多事情 。例如，HTMLCleaner不能正确/完全实现XPath 1.0规范（contains例如，它
是XPath 1.0函数）。好消息是您不需要它。您只需HTMLCleaner即可解析格式错误的输入。完成此操作后，最好 使用标准XML接口
来处理生成的（现在格式正确的）文档。

首先将文档转换成这样的标准org.w3c.dom.Document：

TagNode tagNode = new HtmlCleaner().clean(
        "<div><table><td id='1234 foo 5678'>Hello</td>");
org.w3c.dom.Document doc = new DomSerializer(
        new CleanerProperties()).createDOM(tagNode);

然后使用标准的JAXP接口对其进行查询：

XPath xpath = XPathFactory.newInstance().newXPath();
String str = (String) xpath.evaluate("//div//td[contains(@id, 'foo')]/text()", 
                       doc, XPathConstants.STRING);
System.out.println(str);

输出：

Hello

在Java中针对HTML使用XPath包含

相关阅读

相关文章

相关问答

相关工具

相关文档