当前位置：首页 > 面试题库 >

如何从无限滚动网站上抓取所有内容？

施念

2023-03-14

问题内容：

我正在用scrap。

我正在使用的网站具有无限滚动。

该网站上有大量帖子，但我只抓取了13。

如何scrape 其余的帖子？

这是我的代码：

class exampleSpider(scrapy.Spider):
name = "example"
#from_date = datetime.date.today() - datetime.timedelta(6*365/12)
allowed_domains = ["example.com"]
start_urls = [
    "http://www.example.com/somethinghere/"
]

def parse(self, response):
  for href in response.xpath("//*[@id='page-wrap']/div/div/div/section[2]/div/div/div/div[3]/ul/li/div/h1/a/@href"):
    url = response.urljoin(href.extract())
    yield scrapy.Request(url, callback=self.parse_dir_contents)


def parse_dir_contents(self, response):
    #scrape contents code here

问题答案：

我使用Selenium而不是，scrapy但是你必须能够执行等效操作，而我要做的是在加载文件时运行一些JavaScript，即：

driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

而且我一直坚持下去，直到它不再滚动为止。它不是很漂亮，不能在生产中使用，但是对特定工作有效。

类似资料：

无限滚动刮擦网站

问题内容：我已经写了很多刮板，但是我不确定如何处理无限滚动条。如今，大多数网站，Facebook，Pinterest等都有无限滚动条。问题答案：您可以使用硒来刮除Twitter或Facebook之类的无限滚动网站。步骤1：使用pip安装Selenium 第2步：使用下面的代码自动执行无限滚动并提取源代码步骤3：根据需要打印数据。
如何从需要cookie登录的网站上抓取PHP中的网站内容？

问题内容：我的问题是，它不仅需要基本的cookie，而且还要求会话cookie和随机生成的ID。我认为这意味着我需要将Web浏览器模拟器与Cookie罐一起使用？我曾尝试使用Snoopy，Goutte和其他一些Web浏览器模拟器，但到目前为止，我还无法找到有关如何接收Cookie的教程。我有点绝望了！谁能给我一个如何在史努比或古特接受饼干的例子吗？提前致谢！问题答案：然后，我们应该能够
抓取网站中的动态内容

问题内容：我需要从此网站Link中抓取新闻公告。公告似乎是动态生成的。它们不会出现在源代码中。我通常使用机械化，但是我认为它不会起作用。我该怎么办？我可以使用python或perl。问题答案：礼貌的选择是询问网站所有者是否具有允许您访问其新闻报道的API。不太礼貌的选择是跟踪页面加载时发生的HTTP事务，并确定哪一个是AJAX调用，该调用会提取数据。看起来就是这个。但是看起来它可能包含会
Web抓取具有动态javascript内容的网站

问题内容：因此，我正在使用python和beautifulsoup4（我不受其约束）来抓取网站。问题是当我使用urlib抓取页面的html时，它不是整个页面，因为其中一些是通过javascript生成的。有什么办法可以解决这个问题？问题答案：基本上有两个主要选项可以继续：使用浏览器开发人员工具，查看哪些ajax请求将加载页面并在脚本中模拟它们，您可能需要使用json模块将响应json字符串
如何用Python抓取javascript网站？

我正试图浏览一个网站。我尝试过使用两种方法，但都没有提供完整的网站源代码，我正在寻找。我正试图从下面提供的网站URL中获取新闻标题。 URL："https://www.todayonline.com/" 这是我尝试过但失败的两种方法。请帮忙。我试着抓取其他新闻网站，这要容易得多。谢谢你。
如何使用R从这个网站的所有表格中抓取数据？

我需要从这个网站的所有表格中提取所有数据http://ncpscxx.moa.gov.cn/#/sing?headingIndex=true 我尝试过与rvest，但... 我该如何解决这个问题？

相关阅读

用Java抓取angularjs网站可以使用scrapy从使用AJAX的网站中抓取动态内容吗？Python-可以使用scrapy从使用AJAX的网站中抓取动态内容吗？如何在python中使用selenium和beautifulsoup从网站上抓取报纸文章？如何使用Java从网站上获取favicon.ico？

相关文章

网站迁移备份网站攻击网站如何建设一个自己的网站(博客）？小企业网站

相关问答

如何使用python和selenium使用load more按钮刮无限滚动的网站如何使用Python在web上抓取嵌入在网站中的表 Java Jsoup抓取网站数据故障如何限制滚动窗格内容的宽度用python抓取动态内容

相关工具

获取网页的所有图片 CMS 网站 openparty 网站源码滚动菜单滚动数字Label

相关文档

网站设计解构：有效的交互设计框架和模式静态网站构建手册之使用 Hugo 构建个人博客 MIP 移动网页加速器开发文档上云如此简单 Linux C 编程一站式学习