问题：

粗糙的蜘蛛不爬行

林冥夜

2023-03-14

我正试着测试这只痒痒的爬行蜘蛛，但我不明白它为什么不爬行。它应该做的是在wikipedia的数学页面上爬行一个深度级别，然后返回每个爬行页面的标题。我错过了什么？非常感谢您的帮助！

from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
from scrapy.selector import Selector
from Beurs.items import WikiItem

class WikiSpider(CrawlSpider):
    name = 'WikiSpider'
    allowed_domains = ['wikipedia.org']
    start_urls = ["http://en.wikipedia.org/wiki/Mathematics"]

    Rules = (
        Rule(LinkExtractor(restrict_xpaths=('//div[@class="mw-body"]//a/@href'))),
        Rule(LinkExtractor( allow=("http://en.wikipedia.org/wiki/",)),     callback='parse_item', follow=True),        
        )


def parse_item(self, response):
    sel = Selector(response)  
    rows = sel.xpath('//span[@class="innhold"]/table/tr')
    items = []

        for row in rows[1:]:
            item = WikiItem()
            item['agent'] = row.xpath('./td[1]/a/text()|./td[1]/text()').extract()
            item['org'] = row.xpath('./td[2]/text()').extract()
            item['link'] = row.xpath('./td[1]/a/@href').extract()
            item['produkt'] = row.xpath('./td[3]/text()').extract()
        items.append(item)
        return items

设置：

BOT_NAME = 'Beurs'

SPIDER_MODULES = ['Beurs.spiders']
NEWSPIDER_MODULE = 'Beurs.spiders'
DOWNLOAD_HANDLERS = {
  's3': None,
}
DEPTH_LIMIT = 1

日志：

C:\Users\Jan Willem\Anaconda\Beurs>scrapy crawl BeursSpider
2015-11-07 15:14:36 [scrapy] INFO: Scrapy 1.0.3 started (bot: Beurs)
2015-11-07 15:14:36 [scrapy] INFO: Optional features available: ssl, http11,    boto
2015-11-07 15:14:36 [scrapy] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'Beurs.spiders', 'SPIDER_MODULES': ['Beurs.spiders'], 'DEPTH_LIMIT': 1,    'BOT_NAME': 'Beurs'}
2015-11-07 15:14:36 [scrapy] INFO: Enabled extensions: CloseSpider, TelnetConsole, LogStats, CoreStats, SpiderState
2015-11-07 15:14:36 [scrapy] INFO: Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, DefaultHeadersMiddleware, MetaRefreshMiddleware, HttpCompressionMiddleware, RedirectMiddleware, CookiesMiddleware, ChunkedTransferMiddleware, DownloaderStats
2015-11-07 15:14:36 [scrapy] INFO: Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware
2015-11-07 15:14:36 [scrapy] INFO: Enabled item pipelines:
2015-11-07 15:14:36 [scrapy] INFO: Spider opened
2015-11-07 15:14:36 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2015-11-07 15:14:36 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023
2015-11-07 15:14:36 [scrapy] DEBUG: Redirecting (301) to <GET https://en.wikipedia.org/wiki/Mathematics> from <GET http://en.wikipedia.org/wiki/Mathematics>
2015-11-07 15:14:37 [scrapy] DEBUG: Crawled (200) <GET https://en.wikipedia.org/wiki/Mathematics> (referer: None)
2015-11-07 15:14:37 [scrapy] INFO: Closing spider (finished)
2015-11-07 15:14:37 [scrapy] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 530,
 'downloader/request_count': 2,
 'downloader/request_method_count/GET': 2,
 'downloader/response_bytes': 60393,
 'downloader/response_count': 2,
 'downloader/response_status_count/200': 1,
 'downloader/response_status_count/301': 1,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2015, 11, 7, 14, 14, 37, 274000),
 'log_count/DEBUG': 3,
 'log_count/INFO': 7,
 'response_received_count': 1,
 'scheduler/dequeued': 2,
 'scheduler/dequeued/memory': 2,
 'scheduler/enqueued': 2,
 'scheduler/enqueued/memory': 2,
 'start_time': datetime.datetime(2015, 11, 7, 14, 14, 36, 852000)}
2015-11-07 15:14:37 [scrapy] INFO: Spider closed (finished)

共有1个答案

东门城

2023-03-14

所以基本上你的正则表达式不太正确，你的Xpath需要一些调整。我认为下面的代码符合您的要求，所以请尝试一下，如果您需要任何帮助，请告诉我：

def parse_item(self, response):
    sel = Selector(response)
    rows = sel.xpath('//span[@class="innhold"]/table/tr')
    items = []

    for row in rows[1:]:
        item = SasItem()
        item['agent'] = row.xpath('./td[1]/a/text()|./td[1]/text()').extract()
        item['org'] = row.xpath('./td[2]/text()').extract()
        item['link'] = row.xpath('./td[1]/a/@href').extract()
        item['produkt'] = row.xpath('./td[3]/text()').extract()
        items.append(item)
    return items

类似资料：

刮痕爬行蜘蛛不连接

我在这里和其他网站上读了很多关于scrapy的文章，但我无法解决这个问题，所以我问你：P希望有人能帮助我。我想在主客户端页面中验证登录名，然后解析所有类别和所有产品，并保存产品的标题、类别、数量和价格。我的代码：当我在终端上运行scrapy爬行蜘蛛时，我得到以下信息：刮痒的）pi@raspberry：~/SCRAPY/combatzone/combatzone/spiders$SCRAPY
刮擦蜘蛛停止爬行

我试着在一个. asp网站上运行一个蜘蛛，它需要登录授权和一些爬行到同一个网站内的不同页面。我昨天成功地使用我的蜘蛛登录，并正在用不同的功能抓取数据，当我在更改了as功能后再次运行蜘蛛时，蜘蛛停止了工作。我不知道发生了什么，我对网络抓取相当陌生。下面是代码：以下是日志：代码曾经能够尝试从页面中抓取一些我想要的数据，但没有成功，但我相信这只是因为我使用了错误的css选择器。现在它只是打开和关闭而
第三章爬虫和蜘蛛

简介渗透测试可以通过多种途径完成，例如黑盒、灰盒和白盒。黑盒测试在测试者没有任何应用的前置信息条件下执行，除了服务器的 URL。白盒测试在测试者拥有目标的全部信息的条件下执行，例如它的构造、软件版本、测试用户、开发信息，以及其它。灰盒测试是黑盒和白盒的混合。对于黑盒和灰盒测试，侦查阶段对测试者非常必然，以便发现白盒测试中通常由应用所有者提供的信息。我们打算采取黑盒测试方式，因为它涉及到外部攻
蜘蛛记录

蜘蛛记录分为两部分：时间筛选和蜘蛛记录（详情） 1.时间筛选便捷按钮有今日、昨日、前日、上周 X、近七天，并且能自定义选择时间段来得出想要的结果报表 2.蜘蛛记录（时间段详情） 1)蜘蛛记录便是搜索引擎通过蜘蛛爬行所留下的痕迹，蜘蛛记录中的细分做的非常的详细，包含蜘蛛IP地址、访问URL、蜘蛛类型、来访时间 2)搜索引擎爬取网页时,只有触发js统计代码才能被统计，故数据仅供参考
海蜘蛛EWP

海蜘蛛EWP（Easy Webserver Platform）是专门针对服务器运营商/企业等为各类网站运营而设计的稳定易用Web服务平台。它兼有路由器的功能，集专业级防火墙于一体，能够精确控制内外网的访问和各个用户的权限，打造一个高稳定性、易维护、投资低的全新智能化Web应用平台。 EWP基于嵌入式架构，提供稳定高效的底层核心功能和应用接口。能够兼容绝大多数国内外常见的Web应用，提供主流的Web
刮。开始爬行后如何更改蜘蛛设置？

我无法更改分析方法中的爬行器设置。但这肯定是一种方式。例如：但是项目将由FirstPipeline处理。新项目参数不工作。开始爬网后如何更改设置？提前谢谢！

粗糙的蜘蛛不爬行

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档