摘要: Pholcus如何应对网站反爬虫策略?
Pholcus应对网站反爬虫的核心思想就是:模仿人工操作
具体应对策略如下:
1、 两次请求之间进行随机暂停 ,该时间可以在操作界面设置
2、 当不需缓存cookie时,设置Spider.EnableCookie=true,下载器将会自动更换User-Agent
3、 支持代理IP,其可以在操作界面设置更换IP的时间频率
4、 自动添加请求头的Referer信息
5、 下载器除Go原生内核外,还提供了PhantomJS内核,它可以直接提交含有一些隐蔽、加密的请求参数,提供请求通过率
6、 规则内可以通过主动设置定时器,来控制采集时间