Crawlab爬虫管理框架使用教程（上手）

闾丘坚诚

2023-12-01

Crawlab爬虫管理框架使用（上手）

1、准备

1.1 安装Go环境

官网要求使用 Go1.15+ 的更多 Go 下载
我使用的是 Go1.17.5 ,如果你懒得去寻找的话也可以和我使用同一个版本 Go1.17.5 下载完成后直接点点就可以

1.2安装Docker

1.2.1 安装docker（默认推荐docker）

可参考 docker 官方文档进行安装

Windows 和 Mac 的用户可以下载 Docker Desktop 来完成 Docker 安装。

1.2.2 下载镜像

crawlab开发者已经在DockerHub上构建了Crawlab镜像，只需要将其 pull 下来使用。

Docker国内加速器：

{
  "registry-mirrors": ["https://registry.docker-cn.com"]
}

下载命令：(在这不建议使用。你问我为啥，因为我菜暂时没有能直接使用拉取下来的项目)

docker pull tikazyq/crawlab:latest

1.2.3 安装 Docker-Compose

docker-compose是一个集群管理方式，可以让我们更方便的管理crawlab

安装 docker-compose 其实比较简单，在安装了 pip 的情况下（Python 3），执行以下命令。

pip install docker-compose

安装好后可以执行 docker-compose ps 来查看docker集群运行状况如下：

Name   Command   State   Ports
------------------------------
--------------------------------

这是没有 Docker 容器在运行的情况，也就是空列表。如果有容器在运行，可以看到其对应的信息。

1.2.4 更多请参考crawlab官方文档

2、初始化

2.1 拉取项目

git clone https://gitee.com/tikazyq/crawlab.git  #码云
或
git clone https://github.com/crawlab-team/crawlab.git	#github

**说明：**至于为什么不使用ssh？因为我操作时ssh拉取失败

2.2 启动运行项目

之前安装的docker-compose在这就起了作用，可以帮我们直接启动整个环境，就不必要使用docker命令去一个个部署启动

在拉取的项目中配置docker-compose.yml 文件：

version: '3.3'  # Docker Compose 的版本号（请看后续说明）
services:  # 服务
  master:  # 服务名称
    image: tikazyq/crawlab:latest  # 服务对应的镜像名称
    container_name: master  # 服务对应的容器名称
    environment:  # 这里定义传入的环境变量
      CRAWLAB_API_ADDRESS: "localhost:8000"  # 前端调用的 API 地址，默认为 localhost:8000
      CRAWLAB_SERVER_MASTER: "Y"  # 是否为主节点，Y/N
      CRAWLAB_MONGO_HOST: "mongo"  # MongoDB host，由于在 Docker Compose 里，可以引用服务名称
      CRAWLAB_REDIS_ADDRESS: "redis"  # Redis host，由于在 Docker Compose 里，可以引用服务名称
    ports:  # 映射的端口
      - "8080:8080" # 前端端口
      - "8000:8000" # 后端端口
    depends_on: # 依赖的服务
      - mongo  # MongoDB
      - redis  # Redis
  worker:  # 工作节点，与主节点配置类似，不重复写了
    image: tikazyq/crawlab:latest
    container_name: worker
    environment:
      CRAWLAB_SERVER_MASTER: "N"
      CRAWLAB_MONGO_HOST: "mongo"
      CRAWLAB_REDIS_ADDRESS: "redis"
    depends_on:
      - mongo
      - redis
  mongo:  # MongoDB 服务名称
    image: mongo:latest  # MongoDB 镜像名称
    restart: always  # 重启策略为“总是”
    ports:  # 映射端口
      - "27017:27017"
  redis:  # Redis 服务名称
    image: redis:latest  # Redis 镜像名称
    restart: always  # 重启策略为“总是”
    ports:  # 映射端口
      - "6379:6379"

可以根据自己的要求来配置docker-compose.yml。尤其需要注意CRAWLAB_API_ADDRESS这个环境变量，我在使用时就是这里出了问题，导致前端运行起来访问不到后端数据
更多配置请参考官方配置

完成后就可使用以下命令启动,然后访问 http://localhost:8080

docker-compose up -d

3、使用

3.1 部署爬虫前

这里主要讲的是scrapy爬虫

对你已成功运行的爬虫准备要部署到crawlab上的需要在settings.py文件中找到ITEM_PIPELINES,添加如下代码

ITEM_PIPELINES = {
   'crawlab.pipelines.CrawlabMongoPipeline': 888,
}

以方便你在运行后查看结果数据

3.2 打包上传部署爬虫

您需要到爬虫根目录下进行打包，也就是和scrapy.cfg同级进行打包(所有文件包括scrapy.cfg)

**注意：**打包成zip文件

当然还有更为简便的上传操作，使用CLI命令行工具到官方文档查看具体教程，这里就不做概述

其他更多具体操作也请参考crawlab教程

到这你的爬虫应该可以成功运行了，如果失败请在任务详情里查看日志进行对应的修改。

3.3 定时任务

这里主要讲述一下 Cron 定时器

相信对于学过bash脚本的朋友应该很简单，在cron行点击编辑会弹出一个生成 cron 的窗口，在下边有对应的定时操作，主需要选择你想要的时间即可。记住分、时、天、月、周每一个都需要选，否则不能保存

到这里crawlab的简单上手教程就完成了，你可以去探索更深层的用法。