在介绍feedparser程序包之前,先了解RSS吧
几乎所有的博客都支持RSS订阅,RSS订阅源是一个包含所有博客及其所有文章条目信息的简单的XML文档。通过Universal Feed Parser可以轻松的处理这些在线RSS订阅源,能后轻松的得到RSS或Atom订阅源中的标题,链接,和文章条目。下面说明如何使用FeedParser。
http://rss.huanqiu.com/这是一个Python包,下载地址在下面的google code主页中,以及一个简单的入门文档:
Project Home: https://code.google.com/p/feedparser/
Project doc: http://packages.python.org/feedparser/introduction.html#parsing-a-feed-from-a-remote-url
下载好后,在命令行中进入该文件夹并执行 python setup.py install。
发现执行这一部操作会出现错误:(应该是setuptools模块未找到)
python setup.py install
报错!
那就要安装setuptools模块
python代码
import feedparser
url = 'http://rss.huanqiu.com/mil/world.xml'
url = 'http://www.xinhuanet.com/politics/news_politics.xml'
feedtext = feedparser.parse(url)
a = feedtext['feed']
print (a)
title = feedtext['feed']['title']
print (title)
print ('\n the sum numbers of entries ',len(feedtext.entries),'\n')
entries = feedtext['entries'][0]
print (entries)
autor = feedtext.entries[0].author
print (autor)
#com = feedtext.entries[0].comments
#print (com)
summ = feedtext.entries[0].summary #就是内容
print (summ)
如果要进一步学习关于feedparser的内容 ,可参考
http://pythonhosted.org//feedparser/ 学习更多元素
通过对feedparser的学习,这个工具包主要是提取给定网页上的源码,之后转换成它自己
需要的类型,然后可以分析它的类型结构,进行处理,提取所需的数据,或者链接
所以要想抓起某个具体的条目信息,还需要对entries的内容进行分析,然后在获取其中的连接,
通过这个链接获取最后的内容。
如果要想获取其中的某个具体内容,还需要进一步提取信息,结合其他的爬虫程序
先获得其中的link ,然后通过这link 获取内容。