【爬虫】系列文章目录
Html Agility Pack (HAP)是一个敏捷的HTML解析器,它构建了一个读/写DOM,
并且支持普通的XPATH或者XSLT(实际上你不需要理解XPATH或者XSLT来使用它,不用担心)。
这是一个.NET代码库,允许您解析“网络”HTML文件。
解析器对“真实世界”格式错误的HTML非常宽容。
对象模型与提出System.Xml非常相似,但对于HTML文档(或流)。
发行说明
现在所有版本都是以发布模式构建的。重建影响:Net45 / *和NetCore45 / *
依赖
它的依赖就是 .NET Framework 了。基本各个版本都支持。具体请参考:Nuget 上的 HtmlAgilityPack 包页面。
注:
Html Agility Pack 也是按照 DOM 模型对 HTML 文档进行解析,HtmlNode 就像在 JS 脚本中的 Node,属性与方法和JS中比较相似。但它使用 XPATH 做为选择器,与 JQuery,jsoup 的选择器不同,所以使用起来会很不习惯(当然,如果你对XPath很熟悉的话,那会得心应手)。
不过你完全不懂XPath也没有关系,只要你会使用 Chrome 浏览器的开发者工具就可以了。
Html Agility Pack 之前的首页是指向:CodePlex
现在的主页是:http://html-agility-pack.net/
下一节:Html Agility Pack (HAP) 应用入门
【爬虫】系列文章目录