1.与 html.parserxingmu ,lxml的优点:在于解析"杂乱"或者包含错误语法的HTML代码的性能更优一些。
2.(它可以容忍并修正一些问题,例如未闭合的标签、未正确嵌套的标签,以及缺失的头(head)标签或正文(body)标签。)
3.(lxml 也比 html.parser 更快,但是考虑到网络本身的速度将总是你最大的瓶颈,在网页抓取中速度并不是一个必备的优势。)
4.lxml的一个缺点:它必须单独安装,并且依赖第三方的C语言库。
(相对于 html.parser 来说,这可能会导致可移植性和易用性问题。)
1.和 lxml 一样,html5lib 也是一个具有容错性的解释器,它甚至可以容忍语法更糟糕的HTML。
2.它也依赖与外部依赖,并且比 lxml 和 html.parser 都慢。
(尽管如此,如果你处理的是一些杂乱的或者手写的HTML网站,那么该解释器可能是一个不错的选择。)