【网络爬虫】学习笔记：html.parser、lxml、html5lib 三种解析器的区别

谈渊

2023-12-01

html.parser:

html.parser 是Python3中的一个解析器，不需要单独安装。
（如果不是特殊场景的需要，大都使用这个解释器）

lxml：

1.与 html.parserxingmu ,lxml的优点：在于解析"杂乱"或者包含错误语法的HTML代码的性能更优一些。
2.（它可以容忍并修正一些问题，例如未闭合的标签、未正确嵌套的标签，以及缺失的头（head）标签或正文（body）标签。）
3.（lxml 也比 html.parser 更快，但是考虑到网络本身的速度将总是你最大的瓶颈，在网页抓取中速度并不是一个必备的优势。）
4.lxml的一个缺点：它必须单独安装，并且依赖第三方的C语言库。
（相对于 html.parser 来说，这可能会导致可移植性和易用性问题。）

html5lib：

1.和 lxml 一样，html5lib 也是一个具有容错性的解释器，它甚至可以容忍语法更糟糕的HTML。
2.它也依赖与外部依赖，并且比 lxml 和 html.parser 都慢。
（尽管如此，如果你处理的是一些杂乱的或者手写的HTML网站，那么该解释器可能是一个不错的选择。）

【网络爬虫】学习笔记：html.parser、lxml、html5lib 三种解析器的区别

html.parser:

lxml：

html5lib：

相关阅读

相关文章

相关问答

相关文档