FeedParser处理RSS文档

孟承嗣

2023-12-01

在介绍feedparser程序包之前，先了解RSS吧

RSS订阅是站点用来和其他站点之间共享内容的一种简易方式，即Really Simple Syndication（简易信息聚合）。

面对扑面而来的新闻，不用再花费大量的时间冲浪和从新闻网站下载，只要通过下载或购买一种小程序，这种被简称为RSS的技术会收集和组织定制的新闻，按照你希望的格式、地点、时间和方式，直接传送到你的计算机上。新闻网站和那些在线日记作者已体会到了RSS提要带来的乐趣，这也使读者可以更容易跟踪RSS提要。RSS以其方便快捷的工作方式，为广大网编带了工作效率的跨越，但是也助长了信息高速重复。

几乎所有的博客都支持RSS订阅，RSS订阅源是一个包含所有博客及其所有文章条目信息的简单的XML文档。通过Universal Feed Parser可以轻松的处理这些在线RSS订阅源，能后轻松的得到RSS或Atom订阅源中的标题，链接，和文章条目。下面说明如何使用FeedParser。

http://rss.huanqiu.com/

feedparser的安装

这是一个Python包，下载地址在下面的google code主页中，以及一个简单的入门文档：

Project Home: https://code.google.com/p/feedparser/
Project doc: http://packages.python.org/feedparser/introduction.html#parsing-a-feed-from-a-remote-url

下载好后，在命令行中进入该文件夹并执行 python setup.py install。

发现执行这一部操作会出现错误：（应该是setuptools模块未找到）

python setup.py install
报错!
那就要安装setuptools模块

python代码

import feedparser

url = 'http://rss.huanqiu.com/mil/world.xml'
url = 'http://www.xinhuanet.com/politics/news_politics.xml'
feedtext = feedparser.parse(url)
a = feedtext['feed']
print (a)

title = feedtext['feed']['title']
print (title)

print ('\n the sum numbers of entries  ',len(feedtext.entries),'\n')
entries = feedtext['entries'][0]
print (entries)


autor = feedtext.entries[0].author
print (autor)

#com = feedtext.entries[0].comments
#print (com)

summ = feedtext.entries[0].summary  #就是内容
print (summ)

如果要进一步学习关于feedparser的内容，可参考

http://pythonhosted.org//feedparser/ 学习更多元素

通过对feedparser的学习，这个工具包主要是提取给定网页上的源码，之后转换成它自己
需要的类型，然后可以分析它的类型结构，进行处理，提取所需的数据，或者链接

所以要想抓起某个具体的条目信息，还需要对entries的内容进行分析，然后在获取其中的连接，
通过这个链接获取最后的内容。

如果要想获取其中的某个具体内容，还需要进一步提取信息，结合其他的爬虫程序
先获得其中的link ,然后通过这link 获取内容。

FeedParser处理RSS文档

相关阅读

相关文章

相关问答

相关文档