超好的HTML解析工具PHP Simple HTML DOM Parser 中文手册

戚承业
2023-12-01


超好的HTML 解析工具 PHP Simple HTML DOM Parser  中文手册
  采用PHP5+ 开发的一个简单的 PHP HTML DOM 分析,支持 invalid HTML 并提供非常简单的方式来操作 HTML 元素。在 HMTL 页面上查找标签所使用的语法与 jQuery (一个轻量级,实用的 javascript 框架) 相似。从页面中抽取内容只需要一行代码。

手册地址: http://www.kg-led.com/phpgrid/simplehtml/


请 参考  http://simplehtmldom.sourceforge.net/
php Simple HTML DOM Parser 强力解析 html  工具


include('../simple_html_dom.php');
// Create DOM from URL or file
$dom = file_get_dom('http://www.torrentz.com/movies');
// Find all
foreach($dom->find('img') as $element)
echo $element->src . "/n";
foreach($dom->find('a') as $element)
echo $element->href . " ".$element->innertext."/n"; //网址及结连名称

运 用curl 主站目前已可抓文抓图
//curl 范列
$ch = curl_init ("http://static.php.net/www.php.net/images/php.gif");
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_BINARYTRANSFER,1);
$rawdata=curl_exec ($ch);
curl_close ($ch);
$fp = fopen("php.gif",'w');
fwrite($fp, $rawdata);
fclose($fp);

===========================================================
me578022 简单分析 HTML - PHP Simple HTML DOM Parser

网址: http://sourceforge.net/projects/simplehtmldom/

因为使用PHP 内建的 DOM 物件分析 HTML 实在太痛苦了 ,
我自己写了一个放到 Sourceforge 希望大家能提供一些开发的建议 .

特色:
1. 只支援 PHP5 以上
2. 可以分析不严谨 (invalid) HTML.
3. 支援简单的 CSS Selector.
4. 简单的 DOM 操作
5. 会维持 HTML 中的原始格式 .

范例:
<?
// 示范如何读取 HTML 元素
include('html_dom_parser.php');

// 产生 DOM 物件
$dom = file_get_dom('http://www.google.com/');

// 找出所有网页连结
$result = $dom->find('a');
foreach($result as $v) {echo $v->href . '<br>';}

 // 找出所有网页图片
$result = $dom->find('img');
foreach($result as $v) {echo $v->src . '<br>';}

 // 找出所有网页中所有 id=gbar div 标签
$result = $dom->find('div#gbar');
foreach($result as $v) {echo $v->innertext . '<br>';}

 // 找出所有网页中所有 calss=gb1 span  标签
$result = $dom->find('span.gb1');
foreach($result as $v) {echo $v->outertext . '<br>';}

 // 找出所有网页中所有 align=center 'td 标签
$result = $dom->find('td[align=center]');
foreach($result as $v) {echo $v->outertext . '<br>';}
 ?>

 <?
// 示范如何修改 HTML 元素
include('html_dom_parser.php');

// 产生 DOM 物件
$dom = file_get_dom('http://www.google.com/');

 // 移除网页中所有图片
$ret = $dom->find('img');
foreach($ret as $v) {$v->outertext = '';}

// 修改网页中所有 input 标签
$ret = $dom->find('input');
foreach($ret as $v) {$v->outertext = '[INPUT]';}

// 显示修改后的网页
echo $dom->save();
?>

 类似资料: