Pholcus初探
柯鸿振
2023-12-01
Pholcus(幽灵蛛)是一款纯Go语言编写的高并发、分布式、重量级爬虫软件,支持单机、服务端、客户端三种运行模式,拥有Web、GUI、命令行三种操作界面;规则简单灵活、批量任务并发、输出方式丰富(mysql/mongodb/csv/excel等)、有大量Demo共享;同时她还支持横纵向两种抓取模式,支持模拟登录和任务暂停、取消等一系列高级功能。
今天第一次使用pholcus抓取文章数据,记录下操作步骤,仅供参考。
软件名称及版本:
centos 7
go 1.6
pholcus v0.85
mysql 5.7
1、安装go
wget http://www.golangtc.com/static/go/1.6/go1.6.linux-amd64.tar.gz
tar -xzvf go1.6.linux-amd64.tar.gz
mv go /home/web/go
export GOROOT=/home/web/go
export GOBIN=$GOROOT/bin
export PATH=$PATH:$GOBIN
export GOPATH=/home/web/gopath
source /etc/profile
2、安装pholcus
go get -u -v github.com/henrylee2cn/pholcus
3、编译、配置、运行
创建项目:pholcus.go
[code=c]package main
import (
"github.com/henrylee2cn/pholcus/exec"
_ "github.com/pholcus/spider_lib" // 此为公开维护的spider规则库
// _ "spider_lib_pte" // 同样你也可以自由添加自己的规则库
)
func main() {
// 设置运行时默认操作界面,并开始运行
// 运行软件前,可设置 -a_ui 参数为"web"、"gui"或"cmd",指定本次运行的操作界面
// 其中"gui"仅支持Windows系统
exec.DefaultRun("cmd")
}[/code]
配置pholcus.pkg下的config.ini
[mysql]
conncap=2048
connstring=root:password@tcp(127.0.0.1:3306)
go install 或者 go build pholcus.go
测试用例:./pholcus -_ui=cmd -a_mode=0 -c_spider=2 -a_outtype=mysql -a_thread=10 -a_dockercap=10 -a_pause=300 -a_proxyminute=0 -a_success=true -a_failure=true