当前位置: 首页 > 面试题库 >

使用python抓取ajax页面

壤驷鸿祯
2023-03-14
问题内容

我已经看过有关刮Ajax的问题,但是这里没有提到python。我考虑过使用scrapy,我相信他们有一些关于该主题的文档,但是正如你所看到的,该网站已经关闭。所以我不知道该怎么办。我要执行以下操作:

我只有一个网址,例如example.com,你可以通过单击“提交”来逐页浏览,由于使用ajax来显示内容,因此该网址不会更改。我想抓取每个页面的内容,怎么做?

可以说我只想抓取数字,除了scrapy以外,还有其他方法可以做到吗?如果没有,你能不能给我一个有关如何做到这一点的片段,仅仅是因为他们的网站关闭了,所以我找不到文档。


问题答案:

首先,scrapy文档可在http://doc.codingdict.com/scrapy/index.html

谈到在抓取Web时处理Ajax。基本上,这个想法很简单:

  • 打开浏览器开发者工具的“网络”标签
  • 前往目标地点
  • 单击提交按钮,查看将向服务器XHR发送什么请求
  • XHR在你的蜘蛛中模拟此请求


 类似资料:
  • 问题内容: 我正在尝试开发一个简单的网页抓取工具。我想提取没有代码的文本。我实现了这个目标,但是我发现在某些加载了的页面中,我没有获得良好的结果。 例如,如果一些代码添加了一些文本,则看不到它,因为当我调用 我得到的原始文本没有添加文本(因为在客户端执行了)。 因此,我正在寻找一些解决此问题的想法。 问题答案: 一旦安装了,请确保二进制文件在当前路径中可用: 例 举个例子,我用以下HTML代码创建

  • 问题内容: 我想从网站上获取每天的日出/日落时间。是否可以使用Python抓取网络内容?使用什么模块?有没有可用的教程? 问题答案: 结合使用urllib2和出色的BeautifulSoup库:

  • 我想刮从多个网站与类似的网址的,如https://woollahra.ljhooker.com.au/our-team, https://chinatown.ljhooker.com.au/our-team和https://bondibeach.ljhooker.com.au/our-team. 我已经写了一个脚本,第一个网站的工作,但我不知道如何告诉它从其他两个网站刮。 我的代码: 有没有一种方

  • 我是python新手,正在尝试从以下站点获取数据。虽然这段代码适用于不同的站点,但我无法让它适用于nextgen stats。有人想知道为什么吗?下面是我的代码和我得到的错误 下面是我得到的错误 df11=pd。读取html(urlwk1)回溯(上次调用):文件“”,第1行,在文件“C:\Users\USERX\AppData\Local\Packages\PythonSoftwareFounda

  • 问题内容: 请告知如何抓取AJAX页面。 问题答案: 概述: 首先,所有屏幕抓取都需要手动查看要从中提取资源的页面。在处理AJAX时,通常只需要分析一些内容,而不仅仅是HTML。 在处理AJAX时,这仅意味着您想要的值不在您请求的初始HTML文档中,而是将执行javascript,该javascript请求服务器提供您想要的其他信息。 因此,您通常可以简单地分析javascript并查看javas

  • 问题内容: 在网站上,有在标顶部的几个环节,,,和。如果按下以数字标记的链接,它将动态地将一些数据加载到content中。如果被按下,它会用标签页,,,和第4页中的数据显示。 我想从按下的所有链接的内容中抓取数据(我不知道有多少,一次只显示3个,然后) 请举一个例子。例如,考虑网站www.cnet.com。 请指导我下载使用selenium的一系列页面,并自行解析它们以处理漂亮的汤。 问题答案:

  • 问题内容: 该网站在一个列表中列出了250多种课程。我想获取每个课程的名称,然后使用php将其插入到我的mysql数据库中。这些课程如下所示: 有没有办法在PHP中做到这一点,而不是让我陷入疯狂的数据输入梦night? 问题答案: 正则表达式效果很好。 请参阅文档 preg_match。

  • 本文向大家介绍如何使用Python抓取网页tag操作,包括了如何使用Python抓取网页tag操作的使用技巧和注意事项,需要的朋友参考一下 这篇文章主要介绍了如何使用Python抓取网页tag操作,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 1. 获取操作tag 获取操作tag的接种方式: soup.find_all(name=None, at