一、说明
二、php代码
<?php
class Test
{
public function __construct()
{
require_once 'simple_html_dom.php';
}
//入口函数
public function start()
{
$htmlObj = new simple_html_dom();
//加载方式有一下三种
/* $htmlObj->load_file('http://www.***.com'); // 从url加载
$htmlObj->load('HTML字符串'); // 从字符串加载
$htmlObj->load_file('/file/test.html'); //从文件加载 */
//为了演示我使用第二种
$html = $this->getPageHtml(); //模拟HTML数据
$htmlObj->load($html);
//定位到这一行<div id="content">;find方法返回的是一个二维对象数组,
//在已知结果只有1条的情况下,我们可以把第二个参数设为0,即二维数组里的第一条数据。
$contentObj = $htmlObj->find('div#content', 0); //获取到内容
$hrefs = $contentObj->find('a'); //查找content下的所有a标签
$hrefsCount = count($hrefs);
// $h3s = $contentObj->find('h3'); //查找content下的所有h3标签
$data = []; //每一页的数据
/**
* 这四个属性的区别
* tag标签获取
* outertext 外文本:节点的HTML + 节点内的所有内容(包含HTML标签)
* innertext 内文本:节点内的所有内容(包含HTML标签)
* plaintext 纯文本:节点内的所有内容(不包含HTML标签)
*/
//循环处理,获取每一页的数据
for ($index = 0; $index < $hrefsCount; $index++) {
$href = $contentObj->find('a', $index)->href; //定位到第(index+1)个a标签,并获取a标签的href属性
$h3Text = $contentObj->find('h3', $index)->plaintext; //定位到第(index+1)个h3标签,并获取节点内的所有内容(不包含HTML标签)
$data[] = [
'href' => $href,
'h3_text'=> $h3Text
];
}
# 获取每一页的图片url
$imgUrls = $this->getImgHtml();
$htmlObj->load($imgUrls); //重新加载内容
$imgObjs = $htmlObj->find('div.content img');//直接匹配所有images标签
$imgCount = count($imgObjs); //获取图片标签的数量
$imgData = []; //定义每页的图片数据
for ($index = 0; $index < $imgCount; $index++) {
$src = $htmlObj->find('div.content img', $index)->src;//直接定位到第(index+1)张图片,获取图片的src属性
$imgData[] = $src;
}
# 浏览器输出结果数据
echo "<pre>【文章数据】<br/>";
var_export($data);
echo "<br/>【图片数据】<br/>";
var_export($imgData);
}
//模拟一页的html
public function getPageHtml()
{
$html =
<<<EOF
<div id="content">
<h3 class="yh"><a target="_blank" href="http://www.***.com/0">同是过路同做过梦 本应是一对</a></h3>
<h3 class="yh"><a target="_blank" href="http://www.***.com/1">人在少年梦中不觉 醒后要归去</a></h3>
<h3 class="yh"><a target="_blank" href="http://www.***.com/2">三餐一宿也共一双 到底会是谁</a></h3>
<h3 class="yh"><a target="_blank" href="http://www.***.com/3">但凡未得到 但凡是过去</a></h3>
<h3 class="yh"><a target="_blank" href="http://www.***.com/4">总是最登对</a></h3>
<h3 class="yh"><a target="_blank" href="http://www.***.com/5">台下你望台上我做 你想做的戏</a></h3>
<h3 class="yh"><a target="_blank" href="http://www.***.com/6">前事故人忘忧的你 可曾记得起</a></h3>
</div>
EOF;
return $html;
}
//模拟一页里所有图片的html
public function getImgHtml()
{
$html =
<<<EOF
<div class="content">
<div class="image img_wrap"><img src='http://*******.net/images/2022/01.png' /></div>
<div class="image img_wrap"><img src='http://*******.net/images/2022/02.png' /></div>
<div class="image img_wrap"><img src='http://*******.net/images/2022/03.png' /></div>
<div class="image img_wrap"><img src='http://*******.net/images/2022/04.png' /></div>
<div class="image img_wrap"><img src='http://*******.net/images/2022/05.png' /></div>
<div class="image img_wrap"><img src='http://*******.net/images/2022/06.png' /></div>
</div>
EOF;
return $html;
}
}
三、浏览器输出
【文章数据】
array (
0 =>
array (
'href' => 'http://www.***.com/0',
'h3_text' => '同是过路同做过梦 本应是一对',
),
1 =>
array (
'href' => 'http://www.***.com/1',
'h3_text' => '人在少年梦中不觉 醒后要归去',
),
2 =>
array (
'href' => 'http://www.***.com/2',
'h3_text' => '三餐一宿也共一双 到底会是谁',
),
3 =>
array (
'href' => 'http://www.***.com/3',
'h3_text' => '但凡未得到 但凡是过去',
),
4 =>
array (
'href' => 'http://www.***.com/4',
'h3_text' => '总是最登对',
),
5 =>
array (
'href' => 'http://www.***.com/5',
'h3_text' => '台下你望台上我做 你想做的戏',
),
6 =>
array (
'href' => 'http://www.***.com/6',
'h3_text' => '前事故人忘忧的你 可曾记得起',
),
)
【图片数据】
array (
0 => 'http://*******.net/images/2022/01.png',
1 => 'http://*******.net/images/2022/02.png',
2 => 'http://*******.net/images/2022/03.png',
3 => 'http://*******.net/images/2022/04.png',
4 => 'http://*******.net/images/2022/05.png',
5 => 'http://*******.net/images/2022/06.png',
)