问题：

使用基于python scrapy的爬虫程序，但出现错误

崔博延

2023-03-14

嗨，伙计们，我已经写了一个Python爬虫刮......

import scrapy

from c2.items import C2Item

try:

    class C2(scrapy.Spider):
            name = 'cn'
            allowed_domains = ['priceraja.com']
            start_urls = ['https://www.priceraja.com']



            def parse_item(self, response):

               Item = []
               Item['url']=response.xpath('//a/@href/text()').extract()
               yield Item

except Exception:
logging.exception("message")

我不断地犯错误

2017-08-05 01:12:28 [scrapy.core.scraper] ERROR: Spider error processing 
<GET 
https://www.killerfeatures.com> (referer: None)
Traceback (most recent call last):
File "D:\Ana\lib\site-packages\twisted\internet\defer.py", line 653, in _ 
runCallbacks
current.result = callback(current.result, *args, **kw)
File "D:\Ana\lib\site-packages\scrapy\spiders\__init__.py", line 90, in 
parse raise NotImplementedError
NotImplementedError
2017-08-05 01:12:28 [scrapy.core.engine] INFO: Closing spider (finished)
2017-08-05 01:12:28 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 435,
 'downloader/request_count': 2,
 'downloader/request_method_count/GET': 2,

“downloader/response_bytes”：9282，“downloader/response_count”：2，“downloader/response_status_count/200”：1，“downloader/response_status_count/301”：1，“finish_reason”：7，“finish_time”：datetime.datetime（2017，8，4，19，42，28，837000），“log_count/DEBUG”：3，“log_count/ERROR”：1，“log_count/INFO”：7，“response_received_count”：1，“scheduler/dequeued”：2，“scheduler/dequeued/memory”：2，“scheduler/enqueued”：2，“spider_异常/NotImplementedError”：1，“start_time”：datetime.datetime（2017,8,4,19,42,25976000）}2017-08-05 01:12:28[scrapy.core.engine]信息：spider关闭（完成）

共有1个答案

云利

2023-03-14

Scrapy正在寻找parse函数，而您已经实现了parse_item函数。将parse_项更改为parse可能会起作用，或者您可以重写parse函数。

另一个解决方案是使用爬行蜘蛛

类似资料：

基于C#实现网页爬虫

本文向大家介绍基于C#实现网页爬虫，包括了基于C#实现网页爬虫的使用技巧和注意事项，需要的朋友参考一下本文实例为大家分享了基于C#实现网页爬虫的详细代码，供大家参考，具体内容如下 HTTP请求工具类：功能： 1、获取网页html 2、下载网络图片多线程爬取网页代码：截图：以上就是本文的全部内容，希望对大家的学习有所帮助。
基python实现多线程网页爬虫

本文向大家介绍基python实现多线程网页爬虫，包括了基python实现多线程网页爬虫的使用技巧和注意事项，需要的朋友参考一下一般来说，使用线程有两种模式, 一种是创建线程要执行的函数, 把这个函数传递进Thread对象里，让它来执行. 另一种是直接从Thread继承，创建一个新的class，把线程执行的代码放到这个新的class里。实现多线程网页爬虫，采用了多线程和锁机制，实现了广度优先算法
7. 网络爬虫基础使用

urllib介绍：在Python2版本中，有urllib和urlib2两个库可以用来实现request的发送。而在Python3中，已经不存在urllib2这个库了，统一为urllib。 Python3 urllib库官方链接：https://docs.python.org/3/library/urllib.html urllib中包括了四个模块，包括： urllib.request：可以用来
python爬虫beautifulsoup库使用操作教程全解(python爬虫基础入门)

本文向大家介绍python爬虫beautifulsoup库使用操作教程全解(python爬虫基础入门)，包括了python爬虫beautifulsoup库使用操作教程全解(python爬虫基础入门)的使用技巧和注意事项，需要的朋友参考一下【python爬虫基础入门】系列是对python爬虫的一个入门练习实践，旨在用最浅显易懂的语言，总结最明了，最适合自己的方法，本人一直坚信，总结才会使人提高 1
使用 bs4 的爬虫

我们以亚马逊Kindle电子书销售排行榜商品页面来做演示：https://www.amazon.cn/gp/bestsellers/digital-text/116169071 使用BeautifuSoup4解析器，将每件商品的的ASIN、标题、价格、star、评价数量，以及每件商品的链接爬取下来并存储在.csv文件中。 import csv import requests from
基于selenium-java封装chrome、firefox、phantomjs实现爬虫

本文向大家介绍基于selenium-java封装chrome、firefox、phantomjs实现爬虫，包括了基于selenium-java封装chrome、firefox、phantomjs实现爬虫的使用技巧和注意事项，需要的朋友参考一下 2017年一直以来在公司负责爬虫项目相关工程，主要业务有预定、库存、在开发中也遇到很多问题，随手记录一下，后续会持续更新。 chrome、firefox、p

使用基于python scrapy的爬虫程序，但出现错误

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档