当前位置: 首页 > 工具软件 > FeedParser > 使用案例 >

FeedParser处理RSS文档

孟承嗣
2023-12-01

 

在介绍feedparser程序包之前,先了解RSS吧

 

RSS订阅是站点用来和其他站点之间共享内容的一种简易方式,即Really Simple Syndication(简易信息聚合)。
面对扑面而来的新闻,不用再花费大量的时间冲浪和从新闻网站下载,只要通过下载或购买一种小程序,这种被简称为RSS的技术会收集和组织定制的新闻,按照你希望的格式、地点、时间和方式,直接传送到你的计算机上。新闻网站和那些在线日记作者已体会到了RSS提要带来的乐趣,这也使读者可以更容易跟踪RSS提要。RSS以其方便快捷的工作方式,为广大网编带了工作效率的跨越,但是也助长了信息高速重复。
 

几乎所有的博客都支持RSS订阅,RSS订阅源是一个包含所有博客及其所有文章条目信息的简单的XML文档。通过Universal Feed Parser可以轻松的处理这些在线RSS订阅源,能后轻松的得到RSS或Atom订阅源中的标题,链接,和文章条目。下面说明如何使用FeedParser。

http://rss.huanqiu.com/
 
feedparser的安装

这是一个Python包,下载地址在下面的google code主页中,以及一个简单的入门文档:

Project Home: https://code.google.com/p/feedparser/
Project doc:  http://packages.python.org/feedparser/introduction.html#parsing-a-feed-from-a-remote-url

下载好后,在命令行中进入该文件夹并执行 python setup.py install。

发现执行这一部操作会出现错误:(应该是setuptools模块未找到)

python setup.py install
报错!
那就要安装setuptools模块

 

python代码

import feedparser

url = 'http://rss.huanqiu.com/mil/world.xml'
url = 'http://www.xinhuanet.com/politics/news_politics.xml'
feedtext = feedparser.parse(url)
a = feedtext['feed']
print (a)

title = feedtext['feed']['title']
print (title)

print ('\n the sum numbers of entries  ',len(feedtext.entries),'\n')
entries = feedtext['entries'][0]
print (entries)


autor = feedtext.entries[0].author
print (autor)

#com = feedtext.entries[0].comments
#print (com)

summ = feedtext.entries[0].summary  #就是内容
print (summ)


如果要进一步学习关于feedparser的内容 ,可参考

http://pythonhosted.org//feedparser/     学习更多元素

 

通过对feedparser的学习,这个工具包主要是提取给定网页上的源码,之后转换成它自己
需要的类型,然后可以分析它的类型结构,进行处理,提取所需的数据,或者链接

所以要想抓起某个具体的条目信息,还需要对entries的内容进行分析,然后在获取其中的连接,
通过这个链接获取最后的内容。

如果要想获取其中的某个具体内容,还需要进一步提取信息,结合其他的爬虫程序
先获得其中的link ,然后通过这link 获取内容。

 

 

 

 

 

 类似资料: