当前位置: 首页 > 面试题库 >

Scrapy:点击链接以获取其他商品数据?

夏侯昆琦
2023-03-14
问题内容

我没有特定的代码问题,但我不确定如何使用Scrapy框架从逻辑上解决以下问题:

我要抓取的数据结构通常是每个项目的表格行。简单明了吧?

最终,我想为每一行抓取Title,Due Date和Details。 标题和截止日期立即在页面上显示…

但是Details本身不在表格中,而是指向包含详细信息的页面的链接(如果没有意义,请使用表格):

|-------------------------------------------------|
|             Title              |    Due Date    |
|-------------------------------------------------|
| Job Title (Clickable Link)     |    1/1/2012    |
| Other Job (Link)               |    3/2/2012    |
|--------------------------------|----------------|

即使在阅读了Scrapy文档的CrawlSpider部分之后,我仍然不知道如何通过回调和请求在逻辑上传递该项目。


问题答案:

要抓取其他页面上的其他字段,请在parse方法中使用附加信息提取页面的URL,创建并从该parse方法返回具有该URL的Request对象,并通过其meta参数传递已提取的数据



 类似资料:
  • 我正在做一个网络抓取,我可以在一个特定的链接中获取信息,但是我想通过去那个页面上每个项目的链接来自动化这个过程,然后获取信息回到主页,然后点击下面项目的链接。 网址是:https://ca.iherb.com/c/Vitamins?noi=48 我想点击“加州黄金营养、黄金C、维生素C、1000毫克、60粒蔬菜胶囊”项目,然后点击底部的“查看所有评论”。然后返回主页并单击以下项目的链接。 我使用此

  • 问题内容: 我正在FireFox中使用Selenium的IDE进行一些测试,我希望Selenium单击第二个链接(Text2)。知道我该怎么做吗?不幸的是,我无权访问HTML并且无法对其进行修改。记录功能似乎没有注册点击。 该代码附在下面。提前致谢! 问题答案: 硒也支持定位器。如果您知道确切的链接文本,则可以使用此定位器,但不能使用其他定位器。因此,对于上述示例:或。(有关其他定位器,请参见此网

  • 问题内容: 我正在尝试使用基于selenium的Katalon Studio进行一些测试。在我的一项测试中,我必须在文本区域内编写。问题是我得到以下错误: 实际上,我的元素放置在其他可能隐藏它的diva里面,但是如何使click事件击中我的textarea? 问题答案: 可能是由于不同的因素造成的。您可以通过以下任一过程解决它们: 由于存在JavaScript或AJAX调用而无法单击元素 尝试使用

  • 本文向大家介绍Python爬取京东的商品分类与链接,包括了Python爬取京东的商品分类与链接的使用技巧和注意事项,需要的朋友参考一下 前言 本文主要的知识点是使用Python的BeautifulSoup进行多层的遍历。 如图所示。只是一个简单的哈,不是爬取里面的隐藏的东西。 示例代码 运行这段代码以及达到了我们的目的。 我们来解读一下这段代码。 首先我们要访问到京东的首页。 然后通过Beauti

  • 问题内容: 我正在尝试通过Selenium进行网络抓取。我的问题很简单:如何找到链接,然后如何单击它?例如:以下是我要网页抓取的HTML: 因此,如您所见,“详细信息”是一个链接。 如何使用Selenium找到该链接并单击它? 问题答案: 您可以使用: 例如: 要单击它,只需调用click方法:

  • 说明 用于获取商品列表 请求地址 http://api.dc78.cn/Api/mall_list_commodity 请求方式 GET 请求参数 GET参数 描述 size=30,一次分页的数量,默认30 page=1,获取分页的页码 POST数据 描述 无 返回 { "data": { "count": "6", "size": "2", "pages": "3", "page": "1",