当前位置: 首页 > 软件库 > Web应用开发 > HTML解析器 >

html-parser

PHP 的 HTML 解析工具
授权协议 MIT
开发语言 PHP
所属分类 Web应用开发、 HTML解析器
软件类型 开源软件
地区 国产
投 递 者 阳英朗
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

php html解析工具,类似PHP Simple HTML DOM Parser。 由于基于php模块tidy,所以在解析html时的效率比 PHP Simple HTML DOM Parser 快2倍多。 并提供广度优先查询find()和深度优先查询find2() 两种查询方式,可根据自己的情况选择使用。 因为代码实现的问题,在查询全部时深度优先比广度优先快一点。

示例代码:

<?php
$html = '<html>
  <head>
    <title>test</title>
  </head>
  <body>
    <p class="test_class test_class1">p1</p>
    <p class="test_class test_class2">p2</p>
    <p class="test_class test_class3">p3</p>
    <div id="test1">测试1</div>
  </body>
</html>';
$html_dom = new HtmlParserModel();
$html_dom->parseStr($html);
$p_array = $html_dom->find('p.test_class');
$p1 = $html_dom->find('p.test_class1',0);
$div = $html_dom->find('div#test1',0);
foreach ($p_array as $p){
    echo $p->getPlainText();
}
echo $div->getPlainText();
echo $p1->getPlainText();
echo $pi->class;
?>
  • 一、body-parser bodyParser用于解析客户端请求的body中的内容,内部使用JSON编码处理,url编码处理以及对于文件的上传处理。 body-parser的安装 npm install body-parser body-parser的使用 var bodyParser = require('body-parser') 1、底层中间件用法:这将拦截和解析所有的请求;也即这种用法

  • 最近工作需要采集网页的数据,用正则我不是很熟悉,给大家介绍一个好用的组件,使用也非常简单。 它对php版本没要求,另外打开php的mbstring扩展即可。 在packagist.org网站上搜索这个组件,它的使用介绍也寥寥几行,基本使用足够了。 安装方式一:直接在项目根目录执行 composer require sunra/php-simple-html-dom-parser 安装方式二:在c

 相关资料
  • HTML5 Boilerplate 默认提供两个 html 页面: index.html 404.html index.html no-js类 no-js 类可以让开发者依据 JavaScript 被启用(.js)或被禁止(.no-js)两种状态,更轻易准确地添加自定义样式。 使用这个技巧也有助于避免浏览器闪烁(FOUC)。 lang 属性 请认真考虑在 <html> 中添加 lang 属性,从而

  • 本文向大家介绍使用PHP的HTML DOMDocument解析HTML,包括了使用PHP的HTML DOMDocument解析HTML的使用技巧和注意事项,需要的朋友参考一下 可以通过以下代码获取<div>标记内的<div>标记内的文本,其中<div>内的class =“ main”内- 示例 输出结果 这将产生以下输出-

  • 问题内容: 我正在开发一个从网站上抓取数据的应用程序,我想知道应该如何获取数据。具体来说,我需要包含在使用特定CSS类的许多div标签中的数据-目前(出于测试目的)我只是在检查 在HTML的每一行中-都可以,但是我不禁感到有更好的解决方案。 有什么好方法可以给类添加一行HTML并提供一些好方法,例如: 问题答案: “ JTidy是HTML Tidy的Java端口,HTML Tidy是HTML语法检

  • 前面介绍了很多眼花缭乱的新技术,关于渲染,关于硬件加速,关于布局,关于其他很多,同大家一样,我也花了很多时间来消化它们。本章介绍稍微基础些的话题(本系列的写作顺序完全是随心所欲地),就是在渲染整个过程的初始阶段---HTML解析。不过这不表示它简单,其实这里是非常绕人的。在前面描述渲染过程,其实也是回避了这些方面的很多细节,原因也很简单,我自己也没有完全仔细地了解清楚. :-( 现在又重新阅读和d

  • 问题内容: 在nodejs上有像Ruby的nokogiri这样的东西吗?我的意思是用户友好的HTML解析器。 我在Node.js模块页面上看到了一些解析器,但是找不到漂亮又新鲜的东西。 问题答案: 如果要构建DOM,可以使用jsdom。 还有cheerio,它具有jQuery接口,并且比旧版本的jsdom快很多,尽管如今它们的性能相似。 您可能想看一下htmlparser2,它是一个流解析器,根据

  • 问题内容: 什么HTML解析器具有以下功能: 快速 线程安全 可靠且无错误 解析HTML和XML 处理错误的HTML 有一个DOM实现 支持HTML4,JavaScript和CSS标签 相对简单的面向对象的API 您认为哪种解析器更好? 谢谢。 问题答案: ApacheTika是最佳选择。Apache最近从现有项目中提取了许多子项目并将其公开。提卡(Tika)是其中之一,以前是Apache Luc

  • 问题内容: 谁能推荐C或Objective-C库进行HTML解析?它需要处理无法完全验证的凌乱的HTML代码。 这样的库是否存在,还是我最好只是尝试使用正则表达式? 问题答案: 看起来像是SDK中附带的,并具有以下特征: 该模块使用与XML解析器兼容的API来实现HTML4.0非验证解析器。即使从规范的角度来看严重损坏,它也应该能够解析“真实世界”的HTML。 这听起来像我所需要的,所以我可能会使

  • 问题内容: 我如何解析包含在PHP变量中的HTML代码,例如: 我只想 获取标题之间的文本, 并且我知道使用正则表达式不是一个好主意。 问题答案: 使用PHP 文档对象模型: 输出为: [编辑]:OP澄清后: 如果您想要类似 Lorem ipsum 的内容 。 等,您可以直接使用此正则表达式: 输出: Lorem ipsum。快速的红狐狸……跳过了懒惰的棕色FROG