当前位置：首页 > 面试题库 >

用Scrapy刮Ajax页面？

戈华茂

2023-03-14

问题内容：

我正在使用Scrapy从该页面抓取数据

https://www.bricoetloisirs.ch/magasins/gardena

产品列表会动态显示。查找网址以获取产品

https://www.bricoetloisirs.ch/coop/ajax/nextPage/(cpgnum=1&layout=7.01-14_180_69_164_182&uiarea=2&carea=%24ROOT&fwrd=frwd0&cpgsize=12)/.do?page=2&_=1473841539272

但是当我用Scrapy刮它时，它给了我空白页

<span class="pageSizeInformation" id="page0" data-page="0" data-pagesize="12">Page: 0 / Size: 12</span>

这是我的代码

# -*- coding: utf-8 -*-
import scrapy

from v4.items import Product


class GardenaCoopBricoLoisirsSpider(scrapy.Spider):
    name = "Gardena_Coop_Brico_Loisirs_py"

    start_urls = [
            'https://www.bricoetloisirs.ch/coop/ajax/nextPage/(cpgnum=1&layout=7.01-14_180_69_164_182&uiarea=2&carea=%24ROOT&fwrd=frwd0&cpgsize=12)/.do?page=2&_=1473841539272'
        ]

    def parse(self, response):
        print response.body

问题答案：

我解决了。

# -*- coding: utf-8 -*-
import scrapy

from v4.items import Product


class GardenaCoopBricoLoisirsSpider(scrapy.Spider):
    name = "Gardena_Coop_Brico_Loisirs_py"

    start_urls = [
            'https://www.bricoetloisirs.ch/magasins/gardena'
        ]

    def parse(self, response):
        for page in xrange(1, 50):
            url = response.url + '/.do?page=%s&_=1473841539272' % page
            yield scrapy.Request(url, callback=self.parse_page)

    def parse_page(self, response):
        print response.body

类似资料：

用bs4 Beautiful Soup刮多页-只刮第一页

***我的代码只用于练习！我试图从FPL的网站上删除每个玩家的名字和团队https://www.premierleague.com/我的代码有一些问题。问题是它只得到的页面与'-1'在网址的末尾，whch我甚至没有灌输在我的页面列表！页面没有任何逻辑-基本url是https://www.premierleague.com/players?se=363 我的代码：
Scrapy-动态等待页面加载-selenium+Scrapy

我最近用python和Selenium做了一个webscraper，我发现做起来非常简单。页面使用ajax调用加载数据，最初我等待一个固定的time_out加载页面。有一段时间奏效了。之后，我发现selenium有一个内置函数WebDriverWait，它可以使用wait.until（）等待特定元素的加载。这使我的webscraper运行得更快。问题是，我对结果还是不满意。我下载内容平均每页花了
用Python进行网页刮取

最近我一直在用Python和靓汤学习网页刮刮乐。然而，当我试图刮下下面的页面时，我遇到了一点麻烦： http://www.librarything.com/work/3203347 我想从页面上得到的数据是这本书的标签，但我找不到任何方法来获取数据，尽管我花了很多时间在网上拖网。我试着在网上看了几本指南，但似乎没有一本奏效。我尝试将页面转换为XML和JSON，但仍然找不到数据。我现在有点手足无
用漂亮的汤刮多页

我已经获得了刮取第一页的代码，但是url从： https://www.expansion.com/empresas-de/ganaderia/granjas-en-general/index.html -- 如何创建从第2页到第65页的循环？非常感谢！
用漂亮的汤刮Flipkart网页

我试图刮此页上Flipkart： http://www.flipkart.com/moto-x-play/p/itmeajtqp9sfxgsk?pid=MOBEAJTQRH4CCRYM 我试图找到的div类"fk-ui-ccarousel超级容器相同的vreco部分reco-carousel-边界-顶部sameHorizontalReco"，但它返回空结果。 divs是空的。我使用inspect元
下载scrapy的整页

问题内容：我想使用scrapy下载整个页面的内容。使用硒，这很容易：但是，硒要比沙皮慢得多。这是一种简单的方法吗？我想将每个页面的代码保存在不同的文件文本中，而不是另存为csv或json文件。另外，如果在不创建项目的情况下也是可行的，那么对于这样一个简单的任务而言似乎有点过大。问题答案：代码将下载此页面并将其保存在文件中 test_scr.py 通过此命令运行

相关阅读

用selenium刮网使用Selenium + Scrapy 使用AJAX实现分页使用AJAX将HTML插入页面刮擦JavaScript生成的网页数据

相关文章

AJAX 简介 Vue.js Ajax(axios)Vue3 Ajax(axios)jQuery AJAX 方法 Vue.js Ajax(vue-resource)

相关问答

使用登录要求刮取StreetEasy页面如何使用python刮擦aspx渲染页面我如何刮https页面？[重复]如何使用selenium从一个页面中刮取多个网页？用beautifulsoup和selenium webdriver帮助网页刮板

相关工具

刮刮奖 Scrapy Scrapy-Python easy-ajax AJAX Animator

相关文档

Scrapy 中文文档 AJAX 基础教程 Ajax 入门教程 AJAX 中文教程网页安全配色手册