当前位置: 首页 > 工具软件 > Pholcus > 使用案例 >

Pholcus初探

柯鸿振
2023-12-01
Pholcus(幽灵蛛)是一款纯Go语言编写的高并发、分布式、重量级爬虫软件,支持单机、服务端、客户端三种运行模式,拥有Web、GUI、命令行三种操作界面;规则简单灵活、批量任务并发、输出方式丰富(mysql/mongodb/csv/excel等)、有大量Demo共享;同时她还支持横纵向两种抓取模式,支持模拟登录和任务暂停、取消等一系列高级功能。


今天第一次使用pholcus抓取文章数据,记录下操作步骤,仅供参考。


软件名称及版本:
centos 7
go 1.6
pholcus v0.85
mysql 5.7


1、安装go


wget http://www.golangtc.com/static/go/1.6/go1.6.linux-amd64.tar.gz
tar -xzvf go1.6.linux-amd64.tar.gz
mv go /home/web/go
export GOROOT=/home/web/go
export GOBIN=$GOROOT/bin
export PATH=$PATH:$GOBIN
export GOPATH=/home/web/gopath
source /etc/profile


2、安装pholcus


go get -u -v github.com/henrylee2cn/pholcus


3、编译、配置、运行


创建项目:pholcus.go
[code=c]package main


import (
    "github.com/henrylee2cn/pholcus/exec"
    _ "github.com/pholcus/spider_lib" // 此为公开维护的spider规则库
    // _ "spider_lib_pte" // 同样你也可以自由添加自己的规则库
)


func main() {
    // 设置运行时默认操作界面,并开始运行
    // 运行软件前,可设置 -a_ui 参数为"web"、"gui"或"cmd",指定本次运行的操作界面
    // 其中"gui"仅支持Windows系统
    exec.DefaultRun("cmd")
}[/code]


配置pholcus.pkg下的config.ini


[mysql]
conncap=2048
connstring=root:password@tcp(127.0.0.1:3306)


go install 或者 go build pholcus.go


测试用例:./pholcus -_ui=cmd -a_mode=0 -c_spider=2 -a_outtype=mysql -a_thread=10 -a_dockercap=10 -a_pause=300 -a_proxyminute=0 -a_success=true -a_failure=true





 类似资料: