目前主流实现爬虫的方法都是使用pathon,但是不一定只有pathon,php也有很多爬虫工具,比如自带的curl,还有querylist,都能实现爬虫,只要能够实现爬数据,不要用什么样的方法都行。
QUERYLIST官方文档,先可以看下文档,熟悉一下,任务框架都可以使用
过程很简单,看下文档基本上能够使用,
使用compser安装composer require jaeger/querylist
use QL\QueryList;
public function data(){
$arr = [
'page' => 10,
'limit' => 1
]; //请求参数
$hearders = [
'headers' => [
'token' => 'eyJhbGciOiJIUzI1NiJ9.eyJqdGkiOiIxNDEwNDI2MTU0MDM5NDMxMTY5IiwiaWF0IjoxNjI2ODUwMjcwLCJzdWIiOiJkNDkzOTJmNWYyOWI4YjMxNzI0OGEwMmY3MzY3Yjk4NDlhZmRjZGY1IiwiZXhwIjoxNjI5NDQyMjcwfQ.ie5Kw9n3NSz3qPsBNxj30ztBvUUDD0zkOAt-ls8dS2E'
]
]; //设置请求头,根据不同网站设置
$mes = QueryList::get('https://app.shapil.cn/app',$arr,$hearders);
$res = json_decode($mes->getHtml(),true); //如果是抓接口,记得encode,
//接下来就看你自己的处理,可以保存到数据库什么的
// to do something
}
<?php
use QL\QueryList;
//采集某页面所有的图片
$data = QueryList::get('http://cms.querylist.cc/bizhi/453.html')->find('img')->attrs('src');
//打印结果
print_r($data->all());
//采集某页面所有的超链接和超链接文本内容
//可以先手动获取要采集的页面源码
$html = file_get_contents('http://cms.querylist.cc/google/list_1.html');
//然后可以把页面源码或者HTML片段传给QueryList
$data = QueryList::html($html)->rules([ //设置采集规则
// 采集所有a标签的href属性
'link' => ['a','href'],
// 采集所有a标签的文本内容
'text' => ['a','text'] ])->range('li')->query()->getData();
//打印结果
print_r($data->all());
会爬取数据了,也得知道怎么自动化运行,我刚开始是把它写个接口,后来发现这样不行,接口容易超时,只有通过控制台命令,让他一直执行下去
TP6命令行