学习python少不了写爬虫,不仅能以点带面地学习、练习使用python,爬虫本身也是有用且有趣的,大量重复性的下载、统计工作完全可以写一个爬虫程序完成。
用python写爬虫需要python的基础知识、涉及网络的几个模块、正则表达式、文件操作等知识。昨天在网上学习了一下,写了一个爬虫自动下载「糗事百科」里面的图片。源代码如下:
# -*- coding: utf-8 -*- # 上面那句让代码里支持中文#--------------------------------------- # 程序:糗百图片爬虫 # 版本:0.1 # 作者:赵伟 # 日期:2013-07-25 # 语言:Python 2.7 # 说明:能设置下载的页数。没有做更多抽象和交互方面的优化。 #---------------------------------------
import urllib2 import urllib import re
#正则表达式,用来抓取图片的地址 pat = re.compile('<div class="thumb">\\n<img src=\"(ht.*?)\".*?>')
#用来合成网页的URL nexturl1 = "http://m.qiushibaike.com/imgrank/page/" nexturl2 = "?s=4582487&slow"
#页数计数 count = 1
#设置抓取的页数 while count < 3:
print "Page " + str(count) + "\n" myurl = nexturl1 + str(count) + nexturl2 myres = urllib2.urlopen(myurl)#抓取网页 mypage = myres.read()#读取网页内容 ucpage = mypage.decode("utf-8") #转码
mat = pat.findall(ucpage)#用正则表达式抓取图片地址 count += 1; if len(mat): for item in mat: print "url: " + item + "\n" fnp = re.compile('/(\w+\.\w+)$')#下面三行分离出图片文件的名称 fnr = fnp.findall(item) fname = fnr[0] urllib.urlretrieve(item, fname)#下载图片 else: print "no data"
使用方法:新建一个practice文件夹,将源代码保存为qb.py文件,并放在practice文件夹中,在命令行里执行python qb.py,即开始下载图片。可以修改源代码里面的while语句设置下载的页数。
本文向大家介绍python爬虫入门教程之点点美女图片爬虫代码分享,包括了python爬虫入门教程之点点美女图片爬虫代码分享的使用技巧和注意事项,需要的朋友参考一下 继续鼓捣爬虫,今天贴出一个代码,爬取点点网「美女」标签下的图片,原图。 使用方法:新建一个文件夹,把代码保存为name.py文件,运行python name.py就可以把图片下载到文件夹。
本文向大家介绍python爬虫爬取图片的简单代码,包括了python爬虫爬取图片的简单代码的使用技巧和注意事项,需要的朋友参考一下 Python是很好的爬虫工具不用再说了,它可以满足我们爬取网络内容的需求,那最简单的爬取网络上的图片,可以通过很简单的方法实现。只需导入正则表达式模块,并利用spider原理通过使用定义函数的方法可以轻松的实现爬取图片的需求。 1、spider原理 spider就是定
本文向大家介绍NodeJS爬虫实例之糗事百科,包括了NodeJS爬虫实例之糗事百科的使用技巧和注意事项,需要的朋友参考一下 1.前言分析 往常都是利用 Python/.NET 语言实现爬虫,然现在作为一名前端开发人员,自然需要熟练 NodeJS。下面利用 NodeJS 语言实现一个糗事百科的爬虫。另外,本文使用的部分代码是 es6 语法。 实现该爬虫所需要的依赖库如下。 request: 利用 g
本文向大家介绍Python 制作糗事百科爬虫实例,包括了Python 制作糗事百科爬虫实例的使用技巧和注意事项,需要的朋友参考一下 早上起来闲来无事做,莫名其妙的就弹出了糗事百科的段子,转念一想既然你送上门来,那我就写个爬虫到你网站上爬一爬吧,一来当做练练手,二来也算找点乐子。 其实这两天也正在接触数据库的内容,可以将爬取下来的数据保存在数据库中,以待以后的利用。好了,废话不多说了,先来看看程序爬
本文向大家介绍python爬虫(入门教程、视频教程) 原创,包括了python爬虫(入门教程、视频教程) 原创的使用技巧和注意事项,需要的朋友参考一下 python的版本经过了python2.x和python3.x等版本,无论哪种版本,关于python爬虫相关的知识是融会贯通的,呐喊教程关于爬虫这个方便整理过很多有价值的教程,小编通过本文章给大家做一个关于python爬虫相关知识的总结,以下就是全
本文向大家介绍python爬虫beautifulsoup库使用操作教程全解(python爬虫基础入门),包括了python爬虫beautifulsoup库使用操作教程全解(python爬虫基础入门)的使用技巧和注意事项,需要的朋友参考一下 【python爬虫基础入门】系列是对python爬虫的一个入门练习实践,旨在用最浅显易懂的语言,总结最明了,最适合自己的方法,本人一直坚信,总结才会使人提高 1