在上一周我们实现了一个基本的网络爬虫,但是提取页面信息时使用的是正则表达式,这还是比较烦琐,出错率比较高。
我们爬取的信息大多都是网页信息,网页HTML节点(标签)中定义了大量的id和class属性,而且节点之间还有层级关系。
针对于上述这种格式的解析,给大家介绍几种解析库:
a. XPath的使用
b. Beautiful Soup的使用
c. PyQuery的使用