pip install scrapyd
或
conda install scrapyd
pip install scrapyd-client
或
conda install scrapyd-client
命令行下输入scrapyd,正常运行后会有日志提示
Scrapyd web console available at http://127.0.0.1:6800/
浏览器访问此默认地址即可查看可视化界面
在创建scrapy爬虫项目myspider后,修改scrapy.cfg配置文件默认如下:
[settings] default = myspider.settings # myspider为创建的scrapy项目名称 [deploy:server_name] # 为服务器指定一个名字,这里为server_name url = http://localhost:6800/ # 部署项目的服务器地址,此处为本地部署 project = myspider # 工程名myspider # 实际上产环境下需要验证登录scrapyd服务器 # username = *** # password = ***
进入爬虫根目录,即有scrapy.cfg文件的一级,运行
scrapyd-deploy <target> -p <project> # target为配置的服务器名字,project为项目名称
这里对应配置文件即为:
scrapyd-deploy server_name -p myspider
查看部署结果:
scrapyd-deploy -L <服务器名称>
或者查看http://localhost:6800/页面
注: 部署操作会打包当前项目,如果当前项目下有setup.py文件,就会使用其中的配置,没有就会自动创建一个(后期可以根据自己的需要修改里面的信息,也可以暂时不管它) 。从返回的结果里面,我们可以看到部署的状态,项目名称,版本号和爬虫个数,以及当前的主机名称
到现在只是部署成功,还没有启动爬虫
官方推荐使用curl来管理爬虫。Windows安装地址。
curl http://localhost:6800/daemonstatus.json
curl http://localhost:6800/schedule.json -d project=PROJECT_NAME -d spider=SPIDER_NAME
下载可以进入http://localhost:6800/查看
curl http://localhost:6800/cancel.json -d project=PROJECT_NAME -d job=JOB_ID
启动爬虫时会输出的信息中会包含有JOB_ID
curl http://localhost:6800/listprojects.json
curl http://localhost:6800/listspiders.json?project=PROJECT_NAME
curl http://localhost:6800/delproject.json -d project=PROJECT_NAME -d job=JOB_ID