当前位置: 首页 > 工具软件 > HisiPHP > 使用案例 >

php采集规则编写,采集规则 · HisiPHP V2开发手册 · 看云

阴靖
2023-12-01

## 分页列表采集

下面我们以采集站长之家的列表页为例:[http://www.chinaz.com/biz/info/1.shtml](http://www.chinaz.com/biz/info/1.shtml)

## 1. 基本信息

基本信息配置很简单,按照表单备注提示填写即可。

![](https://box.kancloud.cn/be4bd9e367693ace7a19e9e46c06ca39_1492x1170.png)

>[info] 目标编码:用谷歌浏览器打开你要采集的网址,点击右键-审查元素,查看网页源码。如下图:

![](https://box.kancloud.cn/27f2cf15298b9170a48bdbbb3aeeadfb_1682x970.png)

>[info] 网址类型:

分页列表:采集有规则的分页数据。

固定网址:采集固定的某个或多个页面。

>[info] 列表首页:部分网站的列表开始页是index或其他命名规则,有效页码数是从2开始的时候,此处为必填项。

>[info] 链接前缀:指列表页里面的内容链接不是全路径时,例:/detail/124.html,类似这样的链接的时候,此处为必填。

>[info] 资源前缀:指图片或文件的访问地址不是全路径时,例:/upload/img/123.png,类似这样的地址的时候,此处为必填。

## 2. 列表页规则

>[info] 基本信息里面的网址类型设置为分页列表时必须配置列表页规则,如果为固定网址时,请忽略列表页规则的配置。

![](https://box.kancloud.cn/eafd5e92ae2090dbe05f56cdbc2a7c73_1912x436.png)

> 标题:顾名思义,就是字段对应的标题

> 字段名:指数据库对应的字段名,如需入库,必须与真实的数据库字段同名

> 选择器:即我们要采集的CSS选择器,例如:.post-title>a

> 属性:即我们要采集的CSS选择器绑定的属性。纯文字填写:text,含html标签填写:html,其他属性自行选择,如a标签的href属性则填写:href

>固定值:指当前字段无需通过采集获取,需要固定为某个值,这时前面的选择器、属性、内容过滤均可不填

>内容过滤:采集的目标内容里面,有些数据是我们不需要的,我们可以用选择器的方式来过滤这些内容

>入库:指当前采集的字段是否需要存入数据库

> 列表:指是否需要在采集内容管理页面显示

> 下载:指当前字段如果为图片或其他文件时,是否需要下载到本地服务器

>[warning] 列表页规则默认创建了一个详情链接规则,此规则不填写将无法正常抓取到完整的内容页面。我们以采集站长之家的列表页为例:

![](https://box.kancloud.cn/35548ebedbacc67d3e2e8aead000aaf4_2220x992.png)

*****

正确的规则如下:

*****

![](https://box.kancloud.cn/8be0af292e0bb47e604fb8c26670acbf_1872x302.png)

*****

如果还需要采集其他字段信息(如:文章标题),点击右侧蓝色的加号。

*****

![](https://box.kancloud.cn/2473b2529391ce6caf17014560f3d04f_1886x942.png)

*****

正确的规则如下:

*****

![](https://box.kancloud.cn/6bacb608be99c471bdcdd21a0b38728d_1926x424.png)

## 内容页规则

>[info] 内容页规则含义同上。我们以采集此链接为例:[http://www.chinaz.com/2019/0613/1023717.shtml](http://www.chinaz.com/2019/0613/1023717.shtml)

## 需求1:采集文章来源

![](https://box.kancloud.cn/950aa037bd15bdc4dc9814bcd3877be8_2178x1052.png)

*****

通过浏览器审查元素找到了文章来源被包含在class名为source的span标签里面,而且里面还嵌套了一个a标签。那我们的采集规则就变得很简单了,用css选择器的写法就是:`.source>a`,我们需要采集的是A标签包含的文字信息,所以我们的属性直接填写`text`即可。如下图:

![](https://box.kancloud.cn/288a84d153caa37c518277376d6fe73f_1998x272.png)

## 需求2:采集文章内容

![](https://box.kancloud.cn/bb27fcb34e40d8e261b44e64846646fc_2238x1390.png)

*****

我们通过审查元素,找到文章的内容被包含在一个class为detail的div标签里面。采集规则的选择器就特别简单了,直接填写`.detail`即可。文章的内容包含有很多的排版,排版里面是含有html标签的,所以我们的采集属性需要填写`html`。如下图:

![](https://box.kancloud.cn/fff7f961a25afc305126368e20a8eb28_2102x424.png)

>[info] 细心的小伙伴可能已经发现了内容页规则多了一个分页选项,有些网站的文章内容比较长([http://www.chinaz.com/manage/2019/0428/1012578.shtml](http://www.chinaz.com/manage/2019/0428/1012578.shtml)),使用了内容分页,如果希望采集到完整的内容,我们就需要勾选上分页选项。

## 3. 高级配置

![](https://box.kancloud.cn/f86ac2c57e51b9954acff08e385a5d4a_1824x644.png)

*****

>[info] 内容分页就是上面讲的文章内容分页,依然用CSS选择器的方式提取分页代码。

![](https://box.kancloud.cn/804c0ce1905ba4064db0b4f368c19478_1596x724.png)

*****

我们看到分页代码被class名为pagebreak的div标签包裹起来了。选择器名填写`.pagebreak>a`即可。属性保持默认值 `href` 即可。编辑器根据自己实际的使用情况选择,选择编辑器主要是为了自动转换不同编辑器的分页标记。

![](https://box.kancloud.cn/527c34405f5cd5749626e74445b6a975_1906x622.png)

>[info] 回调方法:为了方便您对接不同业务模块的采集需求,数据采集完成后会根据你自定义的入库字段,生成一个新的数据结构并推送到你指定的回调方法里面。你可以根据自己的需求对采集的数据做二次处理并入库。

```

namespace app\blog\admin;

use app\system\admin\Admin;

use app\blog\model\BlogArticle as ArticleModel;

/**

* 文章控制器

* @package app\blog\admin

*/

class Article extends Admin

{

/**

* 采集插件接口示例

* @param array $data 采集的数据集

* @return number/string

*/

public function collect($data)

{

// 数据验证

$result = $this->validate($data, 'app\blog\validate\Article');

if ($result !== true) {

return $result;

}

// 入库

$model = new ArticleModel;

if ($model->save($data) === false) {

return $model->getError() ? $model->getError() : '入库保存失败';

}

// 必须返回新增主键ID

return $model->id;

}

}

```

>[danger] 特别说明:回调方法必须在后台控制器(admin)目录下面。

 类似资料: