当前位置: 首页 > 知识库问答 >
问题:

如何通过Scrapy获取“img”src属性?

谭俊
2023-03-14

我想用scrapy来获取IMG的链接,所以我在scrapy的爬行器中编写了以下程序:

hxs.select('//dl[@class="clearfix"]//img/@src/text()').extract()

然而,这是不管用的。有什么问题吗?

共有1个答案

何升
2023-03-14

text()是元素的文本。只需使用@src:

hxs.select('//dl[@class="clearfix"]//img/@src').extract()
 类似资料:
  • 我正在尝试使用Scrapy获取ID为的页面上图像的URL。target元素具有以下HTML代码 在Chrome浏览器中运行 正确抓取URL 问题:但是在Scrapy中使用以下CSS选择器, 而且 而且 给了我们 使用也返回了同样不正确的URL。 为什么Scrapy会抓取不同的SRC值?

  • 我对使用Scrapy或python进行这方面的工作比较陌生。我想从几个不同的链接中提取,但我在使用HTMLXPathSelector表达式(语法)时遇到了问题。我已经查看了大量的文档以获得适当的语法,但还没有找到解决方案。 下面是一个链接示例,我试图从中提取“img src”: 我正试图从中提取img src url的页面 我想我已经弄清楚了x.select语句的语法,但由于我对这种语法/方法是新

  • 问题内容: 在此示例中,我想将SRC属性转换为变量: 因此,例如-我想要一个变量。重要!src属性将是 dynamic ,因此不能进行硬编码。有什么快速简便的方法可以做到这一点吗? 谢谢! 编辑:图像将是一个巨大的字符串的一部分,基本上是新闻故事的内容。因此,图像只是其中的一部分。 EDIT2:此字符串中将有更多图像,我只想获取第一个的src。这可能吗? 问题答案: 使用类似的HTML解析器,然后

  • 我想从图像(即img)标签中提取源(即src)属性,我使用bs4,我不能使用来获取,但是我可以获取。我该怎么办?

  • 我试图使用python/lxml和命令提取图像URl,但在隔离url本身时遇到麻烦。 下面是我想要的围绕img的HTML: 具体来说,我想隔离<代码>https://photos.zillowstatic.com/p_h/IS2fordnekys6d1000000000.jpgurl。 我尝试了几种方法,但都没有成功,包括以下几种方法:

  • 我做了一个画廊,包含一些不同的图像和点击他们打开模态,并显示图像的缩放。 我使用相同的方法与投资组合,但在这里我只有4项,所以我创建4种不同的模态,显示描述等... 现在有了图像,我想要一个单一的模式,改变图像显示与用户点击。 包含图像的div是这样结构的: 这里是模态: 这里是jQuery: 以下链接 问题是,当我点击图片时,网站显示模式,但不显示里面的图片。。。使用inspect代码,我看到s