Python爬虫 - rss解析器feedparser

薛利
2023-12-01

本篇博客介绍一个利器,叫做feedparser,这个库使我们轻松实现从任何RSS或者Atom订阅源得到一些我们想要的内容。想对比原网页,rss返回的数据更简洁。另外,要注意,这个库只适用于支持rss的网站

一、安装

pip install feedparser

二、简单测试

测试链接为我的csdn博客rss订阅,测试的时候遇到了一个坑:可以看到下面代码中的链接是没有www.的,这样写在Windows上是没有问题的,但是在Linux(我的服务器为Centos7)上返回的会是一个空list,大家复制链接的时候一定要注意。

import feedparser

def rss():
    file = feedparser.parse('https://blog.csdn.net/weixin_44110998/rss/list')
    for i in file.entries:
    	print(i.title,':',i.link)
说明:
  1. 返回的数据经过.entries处理后的结果是一个list;
  2. list里是多个字典,每个字典就是每篇文章的一些主要内容(详情请运行上述代码)
  3. 直接使用字典获取value的方法即可,比如我想获取文章标题,只需要.title即可
 类似资料: