当前位置: 首页 > 工具软件 > HtmlCleaner > 使用案例 >

爬虫工具:浅谈HtmlCleaner+XPath解析HTML

韩峰
2023-12-01

现在常用的网页解析工具有:Jsoup,JsoupXpath,HtmlCleaner。

jsoup 是一款Java 的XML、HTML解析器,可直接解析某个URL地址、HTML文本内容和已经存在的文件。

JsoupXPath是基于Jsoup的拓展,使用路径的形式解析XML和HTML文档。核心类为JXDocument;JsoupXPath的节点对象JXNode不仅可以获取标签节点,还可以获取属性节点

HtmlCleaner是一个开源的Java语言的Html文档解析器。HtmlCleaner能够重新整理HTML文档的每个元素并生成结构良好(Well-Formed)的 HTML 文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则。然而,用户可以提供自定义tag和规则组来进行过滤和匹配。它被设计的小,快速,灵活而且独立。HtmlCleaner也可用在Java代码中,当命令行工具或Ant任务。 解析后编程轻量级文档对象,能够很容易的被转换到DOM或者JDom标准文档,或者通过各种方式(压缩,打印)连续输出XML。

Jsoup解析:

第一步:创建Document

Jsoup创建Document的方式:

第一种:解析一个字符串获取Document对象


String html = "<div><a href='#
 类似资料: