我对使用Scrapy或python来处理这个问题还比较陌生。我希望从几个不同的链接中提取,我在使用HTMLXPathSelector表达式(语法)时遇到问题。我查看了大量的文档以了解正确的语法,但是还没有找到解决方案。在
下面是一个我试图从中提取“img src”的链接示例:from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
class GeekSpider(BaseSpider):
name = "geekS"
allowed_domains = ["geek.com"]
start_urls = ["http://www.geek.com/articles/gadgets/kindle-fire-hd-8-9-on-sale-for-50-off-today-only-20121210/"]
def parse(self, response):
hxs = HtmlXPathSelector(response)
imgurl = hxs.select("//div[@class='article']//a/img/@src").extract()
return imgurl
我想我已经找到了x.select语句的语法,但是,由于我不熟悉这种语法/方法,所以我不太确定。在
这是我的项目.py文件中,基本上遵循了scrapy教程:
^{pr2}$
为了澄清:我要做的是提取页面上的img src url。我不需要提取所有的图像src,我已经知道(容易得多)。在
我只是想缩小范围,只提取img src的特定url。(我将在这个网站的多个页面上使用它)
非常感谢您的帮助!
编辑更新的代码我在geek=geek()中遇到了一些语法错误,所以我稍微修改了一下,希望它更易于理解和运行