当前位置：首页 > 编程笔记 >

Python使用Scrapy爬取妹子图

秋光熙

2023-03-14

本文向大家介绍Python使用Scrapy爬取妹子图，包括了Python使用Scrapy爬取妹子图的使用技巧和注意事项，需要的朋友参考一下

Python Scrapy爬虫，听说妹子图挺火，我整站爬取了，上周一共搞了大概8000多张图片。和大家分享一下。

核心爬虫代码

# -*- coding: utf-8 -*-
from scrapy.selector import Selector
import scrapy
from scrapy.contrib.loader import ItemLoader, Identity
from fun.items import MeizituItem
 
 
class MeizituSpider(scrapy.Spider):
  name = "meizitu"
  allowed_domains = ["meizitu.com"]
  start_urls = (
    'http://www.meizitu.com/',
  )
 
  def parse(self, response):
    sel = Selector(response)
    for link in sel.xpath('//h2/a/@href').extract():
      request = scrapy.Request(link, callback=self.parse_item)
      yield request
 
    pages = sel.xpath("//div[@class='navigation']/div[@id='wp_page_numbers']/ul/li/a/@href").extract()
    print('pages: %s' % pages)
    if len(pages) > 2:
      page_link = pages[-2]
      page_link = page_link.replace('/a/', '')  
      request = scrapy.Request('http://www.meizitu.com/a/%s' % page_link, callback=self.parse)
      yield request
 
  def parse_item(self, response):
    l = ItemLoader(item=MeizituItem(), response=response)
    l.add_xpath('name', '//h2/a/text()')
    l.add_xpath('tags', "//div[@id='maincontent']/div[@class='postmeta clearfix']/div[@class='metaRight']/p")
    l.add_xpath('image_urls', "//div[@id='picture']/p/img/@src", Identity())
 
    l.add_value('url', response.url)
    return l.load_item()

项目地址：https://github.com/ZhangBohan/fun_crawler

以上所述就是本文的全部内容了，希望大家能够喜欢。

类似资料：

Python下使用Scrapy爬取网页内容的实例

本文向大家介绍Python下使用Scrapy爬取网页内容的实例，包括了Python下使用Scrapy爬取网页内容的实例的使用技巧和注意事项，需要的朋友参考一下上周用了一周的时间学习了Python和Scrapy，实现了从0到1完整的网页爬虫实现。研究的时候很痛苦，但是很享受，做技术的嘛。首先，安装Python，坑太多了，一个个爬。由于我是windows环境，没钱买mac, 在安装的时候遇到各种各
Python Scrapy爬虫框架

主要内容：Scrapy下载安装,创建Scrapy爬虫项目,Scrapy爬虫工作流程,settings配置文件Scrapy 是一个基于 Twisted 实现的异步处理爬虫框架，该框架使用纯 Python 语言编写。Scrapy 框架应用广泛，常用于数据采集、网络监测，以及自动化测试等。提示：Twisted 是一个基于事件驱动的网络引擎框架，同样采用 Python 实现。 Scrapy下载安装 Scrapy 支持常见的主流平台，比如 Linux、Mac、Windows 等，因此你可以很方便的安装它
Python Scrapy图片爬取原理及代码实例

本文向大家介绍Python Scrapy图片爬取原理及代码实例，包括了Python Scrapy图片爬取原理及代码实例的使用技巧和注意事项，需要的朋友参考一下 1.在爬虫文件中只需要解析提取出图片地址，然后将地址提交给管道在管道文件对图片进行下载和持久化存储 2.配置文件修改配置文件要增加IMAGES_STORE = './imgsLib'表明图片存放的路径 3.管道类的修改原本管道类继承的
python scrapy爬虫代码及填坑

本文向大家介绍python scrapy爬虫代码及填坑，包括了python scrapy爬虫代码及填坑的使用技巧和注意事项，需要的朋友参考一下涉及到详情页爬取目录结构: kaoshi_bqg.py xmly.py item.py pipelines.py starts.py 然后是爬取到的数据小说 xmly.json 记录一下爬取过程中遇到的一点点问题: 在爬取详情页的的时候, 刚开始不知道
51妹子图

51妹子图手机端，涵盖不同风格、不同类型的优质高清的美女图片，客户端对图片进行了压缩缓存处理，省流量更流畅，无需登录即可免费浏览各种类型的高清妹子图片，炫丽的瀑布流效果，让妹子尽收你眼底，赶快来发现只属于你的专属美女吧。功能模块比较简单，调用百度图片api地址，解析展示在手机端，支持图片缩放，集成了社会化分享组件和万普广告平台sdk，软件为业余制作，可能不是很完美，现在开放源代码，供新手和
Python Scrapy多页数据爬取实现过程解析

本文向大家介绍Python Scrapy多页数据爬取实现过程解析，包括了Python Scrapy多页数据爬取实现过程解析的使用技巧和注意事项，需要的朋友参考一下 1.先指定通用模板 url = 'https://www.qiushibaike.com/text/page/%d/'#通用的url模板 pageNum = 1 2.对parse方法递归处理 parse第一次调用表示的是用来解析第一页对

相关阅读

使用python-Scrapy抓取动态内容 Python使用Scrapy框架进行抓取 scrapy实践之翻页爬取的实现使用Python的Scrapy框架编写web爬虫的简单示例 scrapy利用selenium爬取豆瓣阅读的全步骤

相关文章

Python多线程爬虫 12.2 DrySister看妹子应用(第一版)——2.解析后台数据 Python爬取全国火锅店并可视化展示第一个Python爬虫程序 1.6 9(九妹)图片怎么玩

相关问答

Scrapy-使用xPathSelector提取嵌套的“img src”程序员 - scrapy 爬虫，始终获取不到数据，如何解决呢?python爬虫 - Python爬虫WinError 10061连接拒绝问题？使用“\d”从具有Scrapy for Python 2的DIV中提取数据时出现XPath错误正在提取文本xpath scrapy

相关工具

51妹子图 Scrapy-Python Scrapy 神箭手云爬虫百度云分享爬虫

相关文档

Python 原生爬虫教程 Python 爬虫学习系列教程 Scrapy 中文文档爬虫课件机器学习：使用 Python