其中用到urllib2模块和正则表达式模块。下面直接上代码:
[/code]
#!/usr/bin/env python
#-*- coding: utf-8 -*-
#通过urllib(2)模块下载网络内容
import urllib,urllib2,gevent
#引入正则表达式模块,时间模块
import re,time
from gevent import monkey
monkey.patch_all()
def geturllist(url):
url_list=[]
print url
s = urllib2.urlopen(url)
text = s.read()
#正则匹配,匹配其中的图片
html = re.search(r'<ol.*</ol>', text, re.S)
urls = re.finditer(r'<p><img src="(.+?)jpg" /></p>',html.group(),re.I)
for i in urls:
url=i.group(1).strip()+str("jpg")
url_list.append(url)
return url_list
def download(down_url):
name=str(time.time())[:-3]+"_"+re.sub('.+?/','',down_url)
print name
urllib.urlretrieve(down_url, "D:\\TEMP\\"+name)
def getpageurl():
page_list = []
#进行列表页循环
for page in range(1,700):
url="http://jandan.net/ooxx/page-"+str(page)+"#comments"
#把生成的url加入到page_list中
page_list.append(url)
print page_list
return page_list
if __name__ == '__main__':
jobs = []
pageurl = getpageurl()[::-1]
#进行图片下载
for i in pageurl:
for (downurl) in geturllist(i):
jobs.append(gevent.spawn(download, downurl))
gevent.joinall(jobs)
[/code]
程序不长才45行,不是太难,大家可以研究下,这里我只是抛砖引玉,大家可以根据原理开发出其他的抓取程序,呵呵,自己想去吧。。。我就不多说了~~
本文向大家介绍Python制作爬虫抓取美女图,包括了Python制作爬虫抓取美女图的使用技巧和注意事项,需要的朋友参考一下 作为一个新世纪有思想有文化有道德时刻准备着的屌丝男青年,在现在这样一个社会中,心疼我大慢播抵制大百度的前提下,没事儿上上网逛逛YY看看斗鱼翻翻美女图片那是必不可少的,可是美图虽多翻页费劲!今天我们就搞个爬虫把美图都给扒下来!本次实例有2个:煎蛋上的妹子图,某网站的rosi
本文向大家介绍c#实现抓取高清美女妹纸图片,包括了c#实现抓取高清美女妹纸图片的使用技巧和注意事项,需要的朋友参考一下 c#实现抓取高清美女妹纸图片 以上就是本文的全部内容了,大家可以自由扩展哦,你懂得,希望大家能够喜欢。
问题内容: 我正在做一个项目,我需要做很多屏幕抓取工作,以尽可能快地获取大量数据。我想知道是否有人知道任何好的API或资源来帮助我。 顺便说一下,我正在使用Java。 到目前为止,这是我的工作流程: 连接到网站(使用来自Apache的HTTPComponents) 网站包含一个带有一堆我需要访问的链接的部分(使用内置的Java HTML解析器来弄清楚我需要访问的所有链接是什么,这很烦人且凌乱的代码
本文向大家介绍VC小技巧汇总之窗口技巧,包括了VC小技巧汇总之窗口技巧的使用技巧和注意事项,需要的朋友参考一下 本文搜集汇总了VC小技巧的窗口技巧,对于VC程序开发的窗口设计而言有一定的借鉴价值,详情如下: 1.让窗口一启动就最大化 把应用程序类(CxxxApp)的 InitInstance() 函数中的 改为 则窗口一启动就最大化显示。 2.如何设置窗口的初始尺寸 在将应用程序类(CxxAPP)
本文向大家介绍VC小技巧汇总之控件技巧,包括了VC小技巧汇总之控件技巧的使用技巧和注意事项,需要的朋友参考一下 本文搜集汇总了VC小技巧的控件技巧,对于进行VC开发来说有一定的借鉴价值,具体如下: 1.如何隐藏和显示控件 用CWnd类的函数BOOL ShowWindow(int nCmdShow)可以隐藏或显示一个控件。 例1: 例2: 2.按钮的使能与禁止 用ClassWizard的Member
本文向大家介绍Powershell小技巧之获取MAC地址,包括了Powershell小技巧之获取MAC地址的使用技巧和注意事项,需要的朋友参考一下 在Powershell中获取MAC地址不是很难。这里就有一种方法: 我们面临的问题是要分类数据并格式化。未处理的信息是来自Getmac.exe输出的CSV数据,这里有一个技巧:跳过第一行来命名你喜欢的列(此时包涵了CSV的头),此时可以提供你自己独特的