php解析html类库simple_html_dom(3)

终子昂
2023-12-01

一、说明

二、php代码

<?php

class Test
{
    public function __construct()
    {
        require_once 'simple_html_dom.php';
    }

    //入口函数
    public function start()
    {
        $htmlObj = new simple_html_dom();

        //加载方式有一下三种
        /* $htmlObj->load_file('http://www.***.com');	// 从url加载
        $htmlObj->load('HTML字符串');					// 从字符串加载
        $htmlObj->load_file('/file/test.html');			//从文件加载 */

        //为了演示我使用第二种
        $html = $this->getPageHtml();	//模拟HTML数据
        $htmlObj->load($html);

        //定位到这一行<div id="content">;find方法返回的是一个二维对象数组,
        //在已知结果只有1条的情况下,我们可以把第二个参数设为0,即二维数组里的第一条数据。
        $contentObj = $htmlObj->find('div#content', 0); //获取到内容

        $hrefs = $contentObj->find('a'); //查找content下的所有a标签
        $hrefsCount = count($hrefs);
//        $h3s = $contentObj->find('h3'); //查找content下的所有h3标签

        $data = []; //每一页的数据

        /**
         * 这四个属性的区别
         * 	tag标签获取
         *	outertext 外文本:节点的HTML + 节点内的所有内容(包含HTML标签)
         *	innertext 内文本:节点内的所有内容(包含HTML标签)
         *	plaintext 纯文本:节点内的所有内容(不包含HTML标签)
         */
        //循环处理,获取每一页的数据
        for ($index = 0; $index < $hrefsCount; $index++) {
            $href = $contentObj->find('a', $index)->href; //定位到第(index+1)个a标签,并获取a标签的href属性
            $h3Text = $contentObj->find('h3', $index)->plaintext; //定位到第(index+1)个h3标签,并获取节点内的所有内容(不包含HTML标签)
            $data[] = [
                'href' => $href,
                'h3_text'=> $h3Text
            ];
        }

        # 获取每一页的图片url
        $imgUrls = $this->getImgHtml();
        $htmlObj->load($imgUrls); //重新加载内容
        $imgObjs = $htmlObj->find('div.content img');//直接匹配所有images标签
        $imgCount = count($imgObjs); //获取图片标签的数量

        $imgData = []; //定义每页的图片数据
        for ($index = 0; $index < $imgCount; $index++) {
            $src = $htmlObj->find('div.content img', $index)->src;//直接定位到第(index+1)张图片,获取图片的src属性
            $imgData[] = $src;
        }

        # 浏览器输出结果数据
        echo "<pre>【文章数据】<br/>";
        var_export($data);
        echo "<br/>【图片数据】<br/>";
        var_export($imgData);
    }

    //模拟一页的html
    public function getPageHtml()
    {
        $html =
            <<<EOF
<div id="content">
    <h3 class="yh"><a target="_blank" href="http://www.***.com/0">同是过路同做过梦 本应是一对</a></h3>
    <h3 class="yh"><a target="_blank" href="http://www.***.com/1">人在少年梦中不觉 醒后要归去</a></h3>
    <h3 class="yh"><a target="_blank" href="http://www.***.com/2">三餐一宿也共一双 到底会是谁</a></h3>
    <h3 class="yh"><a target="_blank" href="http://www.***.com/3">但凡未得到 但凡是过去</a></h3>
    <h3 class="yh"><a target="_blank" href="http://www.***.com/4">总是最登对</a></h3>
    <h3 class="yh"><a target="_blank" href="http://www.***.com/5">台下你望台上我做 你想做的戏</a></h3>  
    <h3 class="yh"><a target="_blank" href="http://www.***.com/6">前事故人忘忧的你 可曾记得起</a></h3>  
</div>
EOF;
        return $html;
    }

    //模拟一页里所有图片的html
    public function getImgHtml()
    {
        $html =
            <<<EOF
<div class="content">
    <div class="image img_wrap"><img src='http://*******.net/images/2022/01.png' /></div>
    <div class="image img_wrap"><img src='http://*******.net/images/2022/02.png' /></div>
    <div class="image img_wrap"><img src='http://*******.net/images/2022/03.png' /></div>
    <div class="image img_wrap"><img src='http://*******.net/images/2022/04.png' /></div>
    <div class="image img_wrap"><img src='http://*******.net/images/2022/05.png' /></div>
    <div class="image img_wrap"><img src='http://*******.net/images/2022/06.png' /></div>
</div>
EOF;

        return $html;
    }
}

三、浏览器输出

【文章数据】
array (
  0 => 
  array (
    'href' => 'http://www.***.com/0',
    'h3_text' => '同是过路同做过梦 本应是一对',
  ),
  1 => 
  array (
    'href' => 'http://www.***.com/1',
    'h3_text' => '人在少年梦中不觉 醒后要归去',
  ),
  2 => 
  array (
    'href' => 'http://www.***.com/2',
    'h3_text' => '三餐一宿也共一双 到底会是谁',
  ),
  3 => 
  array (
    'href' => 'http://www.***.com/3',
    'h3_text' => '但凡未得到 但凡是过去',
  ),
  4 => 
  array (
    'href' => 'http://www.***.com/4',
    'h3_text' => '总是最登对',
  ),
  5 => 
  array (
    'href' => 'http://www.***.com/5',
    'h3_text' => '台下你望台上我做 你想做的戏',
  ),
  6 => 
  array (
    'href' => 'http://www.***.com/6',
    'h3_text' => '前事故人忘忧的你 可曾记得起',
  ),
)
【图片数据】
array (
  0 => 'http://*******.net/images/2022/01.png',
  1 => 'http://*******.net/images/2022/02.png',
  2 => 'http://*******.net/images/2022/03.png',
  3 => 'http://*******.net/images/2022/04.png',
  4 => 'http://*******.net/images/2022/05.png',
  5 => 'http://*******.net/images/2022/06.png',
)
 类似资料: