当前位置：首页 > 面试题库 >

Python-可以使用scrapy从使用AJAX的网站中抓取动态内容吗？

方英耀

2023-03-14

问题内容：

我最近一直在学习Python，并全力以赴来构建网络抓取工具。一点都不花哨。其唯一目的是从博彩网站上获取数据并将其放入Excel。

大多数问题都是可以解决的，我周围有些混乱。但是，我在一个问题上遇到了巨大的障碍。如果站点加载一张马表并列出当前的投注价格，则此信息不在任何源文件中。提示是该数据有时是活动的，并且明显从某个远程服务器更新了这些数据。我PC上的HTML只是有一个漏洞，他们的服务器正在推送我需要的所有有趣数据。

现在我对动态Web内容的经验很低，所以这件事使我难以理解。

我认为Java或Javascript是关键，它经常弹出。

刮板只是赔率比较引擎。有些网站有API，但对于那些没有的API，我需要它。我正在使用python 2.7的scrapy库

如果这个问题过于开放，我深表歉意。简而言之，我的问题是：如何使用scrapy来抓取此动态数据，以便可以使用它？这样我就可以实时抓取该赔率数据了吗？

问题答案：

基于Webkit的浏览器（例如Google Chrome或Safari）具有内置的开发人员工具。在Chrome中，你可以将其打开Menu->Tools->Developer Tools。该Network选项卡使你可以查看有关每个请求和响应的所有信息：

在图片的底部，你可以看到我已将请求过滤到XHR-这些是由javascript代码发出的请求。

提示：每次加载页面时都会清除日志，在图片底部，黑点按钮将保留日志。

在分析了请求和响应之后，你可以模拟来自网络爬虫的这些请求并提取有价值的数据。在许多情况下，获取数据比解析HTML更容易，因为该数据不包含表示逻辑，并且其格式设置为可被javascript代码访问。

Firefox具有类似的扩展名，它称为firebug。有人会说萤火虫功能更强大，但我喜欢webkit的简单性。

类似资料：

可以使用scrapy从使用AJAX的网站中抓取动态内容吗？

问题内容：我最近一直在学习Python，并全力以赴来构建网络抓取工具。一点都不花哨。其唯一目的是从博彩网站上获取数据并将其放入Excel。大多数问题都是可以解决的，我周围有些混乱。但是，我在一个问题上遇到了巨大的障碍。如果站点加载一张马表并列出当前的投注价格，则此信息不在任何源文件中。提示是该数据有时是活动的，并且明显从某个远程服务器更新了这些数据。我PC上的HTML只是有一个漏洞，他们的服务
使用python-Scrapy抓取动态内容

问题内容：免责声明：我在StackOverflow上看到过许多其他类似的帖子，并尝试以相同的方式进行操作，但是它们似乎在此网站上不起作用。我正在使用Python-Scrapy从koovs.com获取数据。但是，我无法获得动态生成的产品尺寸。具体来说，如果有人可以引导我从此链接的下拉菜单中获取“不可用”尺寸标签，我将不胜感激。我可以静态获取尺寸列表，但这样做只能得到尺寸列表，但不能获得其中的
抓取网站中的动态内容

问题内容：我需要从此网站Link中抓取新闻公告。公告似乎是动态生成的。它们不会出现在源代码中。我通常使用机械化，但是我认为它不会起作用。我该怎么办？我可以使用python或perl。问题答案：礼貌的选择是询问网站所有者是否具有允许您访问其新闻报道的API。不太礼貌的选择是跟踪页面加载时发生的HTTP事务，并确定哪一个是AJAX调用，该调用会提取数据。看起来就是这个。但是看起来它可能包含会
使用python Web抓取动态内容

问题内容：我想使用Python在这样的网页上抓取“正在寻找这些作者：”框中的内容：http : //academic.research.microsoft.com/Search?query=lander 不幸的是，盒子的内容是由JavaScript动态加载的。通常在这种情况下，我可以阅读Javascript来了解发生了什么，或者可以使用Firebug之类的浏览器扩展来了解动态内容的来源。这次没有
用python抓取动态内容

我想使用Python在这样的网页上抓取“你在寻找这些作者吗”框的内容：http://academic.research.microsoft.com/Search?query=lander 不幸的是，该框的内容是由JavaScript动态加载的。通常在这种情况下，我可以阅读Javascript来了解发生了什么，或者我可以使用Firebug之类的浏览器扩展来了解动态内容的来源。这次没有这样的运气。。。
Python使用scrapy抓取网站sitemap信息的方法

本文向大家介绍Python使用scrapy抓取网站sitemap信息的方法，包括了Python使用scrapy抓取网站sitemap信息的方法的使用技巧和注意事项，需要的朋友参考一下本文实例讲述了Python使用scrapy抓取网站sitemap信息的方法。分享给大家供大家参考。具体如下：希望本文所述对大家的Python程序设计有所帮助。

相关阅读

Python使用scrapy抓取网站sitemap信息的方法 Python Scrapy动态网站 Web抓取具有动态javascript内容的网站使用python和selenium抓取动态网页 Python下使用Scrapy爬取网页内容的实例

相关文章

教你用Python做PPT的动态图 Docker 容器使用静态网页和动态网页 Python使用Redis Linux查看内存使用状态（free命令）

相关问答

抓取网站时获取多个类的内容使用Python抓取多个网页如何使用Selenium抓取多个URL的内容？Python 如何使用Python在web上抓取嵌入在网站中的表用Python从电子商务Ajax站点抓取JSON数据

相关工具

Scrapy-Python CMS 网站 Scrapy openparty 网站源码 SQLite的基本使用

相关文档

静态网站构建手册之使用 Hugo 构建个人博客机器学习：使用 Python Neo4j 中文使用手册以及例子百度站长平台工具使用手册 Scrapy 中文文档