当前位置: 首页 > 工具软件 > html5lib > 使用案例 >

【网络爬虫】学习笔记:html.parser、lxml、html5lib 三种解析器的区别

谈渊
2023-12-01

html.parser:

  1. html.parser 是Python3中的一个解析器,不需要单独安装。
    (如果不是特殊场景的需要,大都使用这个解释器)

lxml:

1.与 html.parserxingmu ,lxml的优点:在于解析"杂乱"或者包含错误语法的HTML代码的性能更优一些。
2.(它可以容忍并修正一些问题,例如未闭合的标签、未正确嵌套的标签,以及缺失的头(head)标签或正文(body)标签。)
3.(lxml 也比 html.parser 更快,但是考虑到网络本身的速度将总是你最大的瓶颈,在网页抓取中速度并不是一个必备的优势。)
4.lxml的一个缺点:它必须单独安装,并且依赖第三方的C语言库。
(相对于 html.parser 来说,这可能会导致可移植性和易用性问题。)

html5lib:

1.和 lxml 一样,html5lib 也是一个具有容错性的解释器,它甚至可以容忍语法更糟糕的HTML。
2.它也依赖与外部依赖,并且比 lxml 和 html.parser 都慢。
(尽管如此,如果你处理的是一些杂乱的或者手写的HTML网站,那么该解释器可能是一个不错的选择。)

 类似资料: