原文链接:https://blog.csdn.net/fyfugoyfa/article/details/112548707
创作不易,未经作者允许,禁止转载,更勿做其他用途,违者必究。
每个网页,都有一定的特殊结构和层级关系,而且很多节点都有 id 或 class 作为区分,我们可以借助它们的结构和属性来提取信息
强大的 HTML 解析库:pyquery,利用它,我们可以直接解析 DOM 节点的结构,并通过 DOM 节点的一些属性快速进行内容提取
pyquery 是 Python 的第三方库,可以用 pip3 来安装,安装命令如下:
pip3 install pyquery -i http