RSS 是用于分发 Web 站点上的内容的摘要的一种简单的 XML 格式。
一、feedparser的安装
下载一个安装包,然后用Windows命令行cd到那个目录下面 输入 python setup.py install 如果不行,那么先双击一次setup.py 再输入
feedparser解析RSS的函数:parse
代码:
d = feedparser.parse('http://feed.cnblogs.com/blog/u/161528/rss')【里面的网址可以随你更改,不过貌似最后都要/rss】
这时候rss的全部内容就都在这个d里面了
我们可以看一下,此时有了全部RSS内容的d长啥样
首先给出简化的我的博客的rss
1 <?xml version="1.0" encoding="utf-8"?> 2 <feed xmlns="http://www.w3.org/2005/Atom"> 3 <title type="text">博客园_mrbean</title> 4 <subtitle type="text">**********************</subtitle> 5 <id>uuid:32303acf-fb5f-4538-a6ba-7a1ac4fd7a58;id=8434</id> 6 <updated>2014-05-14T15:13:36Z</updated> 7 <author> 8 <name>mrbean</name> 9 <uri>http://www.cnblogs.com/MrLJC/</uri> 10 </author> 11 <generator>feed.cnblogs.com</generator> 12 <entry> 13 <id>http://www.cnblogs.com/MrLJC/p/3715783.html</id> 14 <title type="text">用python读写excel(xlrd、xlwt) - mrbean</title> 15 <summary type="text">最近需要从多个excel表里面用各种方式整...</summary> 16 <published>2014-05-08T16:25:00Z</published> 17 <updated>2014-05-08T16:25:00Z</updated> 18 <author> 19 <name>mrbean</name> 20 <uri>http://www.cnblogs.com/MrLJC/</uri> 21 </author> 22 <link rel="alternate" href="http://www.cnblogs.com/MrLJC/p/3715783.html" /> 23 <link rel="alternate" type="text/html" href="http://www.cnblogs.com/MrLJC/p/3715783.html" /> 24 <content type="html">最近需要从多个excel表里面用各种方式整理一些数据,虽然说原来用过java做这类事情,但是由于最近在学python,所以当然就决定用python尝试一下了。发现python果然简洁很多。这里简单记录一下。(由于是用到什么学什么,所以不算太深入,高手勿喷,欢迎指导)一、读excel表读excel要用...<img src="http://counter.cnblogs.com/blog/rss/3715783" width="1" height="1" alt=""/><br/><p>本文链接:<a href="http://www.cnblogs.com/MrLJC/p/3715783.html" target="_blank">用python读写excel(xlrd、xlwt)</a>,转载请注明。</p></content> 25 </entry> 26 </feed>
这个里面的值就是我们得到的内容大部分都是见名知意的单词,当然这些很多都是博客园的生成器自己家的。简单说几个不太明白的
1、generator:这个是生成这个订阅源的工具,也就是博客园自己提供的生成器
2、entry:每篇博文的块,所有的关于你某篇博客的内容都在这(有若干个块,为了不太长我只保留了一个)
3、content:这个里面貌似是可以加html的吗的,rss阅读器展示的就是这的内容
【因此,如果我做数据挖掘,我不关心博客的更新时间,它的作者,网址,我只关心它的内容,有没有我想要的单词。我只需要关心entry这一个】
在代码中,如果没有找到summary,那么可能summary这个项名字叫做“description”,比如http://kotaku.com/rss 这个网址里entry里就没有summary,只有description。不过它们的作用都是一样的。