当前位置：首页 > 软件库 > Web应用开发 > HTML解析器 >

tagparser

Python的HTML文档解析

授权协议 MIT

开发语言 Python

所属分类 Web应用开发、 HTML解析器

软件类型开源软件

地区不详

投递者寿丰

操作系统跨平台

开源组织无

适用人群未知

软件概览

很多人需要提取网页的一些内容, 可以利用正则表达式提取,也可以用beautifulsoap等工具. 正则表达式方法速度快,缺点是不好找到匹配的正则. 其他类似beautiful的工具因为要全面分析html,而html不像xml那么严格,语法比较复杂所以效率很糟糕.这个工具就是为了处里这种问题的.

这个工程只有一个文件 .tagparser.py 它可以方便分析像xml html 等这种标记语言. 只要他是'<'和'>'括起来的标记语言.

分析的方式是'抽'式的.也就是说扫描一个个字符当遇到一个tag时也就是遇到一个<>的时候,回调一个函数onGetTag() ,可以重载这个函数做自己的处理.

如遇到
回调 onGetTag(tagstr, tagstro). tagstr = p tagstro = P tagstr 是小写的tag tagstro是源文件的大小写状态

遇到内容回调 onGetTxt(txtstr) , txtstr是如:<tag>xxxxxxxxx</tag> xxxxx即内容

使用例子,提取网易新闻页的主要内容,新闻标题,内容主体: 例如:

p = TagParser()
p.fetchUrl('http://news.163.com/09/0117/04/4VR79MP60001124J.html')
p.printResult()

输出一个网页的新闻.

使用案例

htmlparser自定义标签UlTag

htmlparser如何自定义UlTag标签: 代码如下: public class UlTag extends CompositeTag { private static final String[] mIds = new String[] {"ul"}; public String[] getIds(){ return (mIds); }
standFord parser 和dependencyparser 使用说明及其符号含义

首先，下载地址一、简单实例 1、standFord Parser from nltk.parse.stanford import StanfordParser import nltk import os if __name__ == '__main__': nltk.internals.config_java('C:/Program Files/Java/jdk1.8.0_202/bi
dom parser

try{ var strXml="<si><indication href=\"http://www.baidu.com\" si-id=\"1\" action=\"signal-low\">Medium</indication><indication href=\"http://www.taobao.com\" action=\"delete\"></indication></si

相关资料

vbs 解析html文档的方法(htmlfile)

本文向大家介绍vbs 解析html文档的方法(htmlfile)，包括了vbs 解析html文档的方法(htmlfile)的使用技巧和注意事项，需要的朋友参考一下关于VBS采集，网上流行比较多的方法都是正则，其实 htmlfile 可以解析 html 代码，但如果 designMode 没开启的话，有时候会包安全提示信息。但是开启 designMode (@预言家晚报分享的方法) 的话，所有
解析和遍历一个HTML文档

如何解析一个HTML文档： String html = "<html><head><title>First parse</title></head>" + "<body><p>Parsed HTML into a doc.</p></body></html>"; Document doc = Jsoup.parse(html); (更详细内容可查看解析一个HTML字符串.) 其解析器能够尽
提取 HTML 文档（Extracting HTML Document）

下面给出了从HTML文档中提取内容和元数据的程序。 import java.io.File; import java.io.FileInputStream; import java.io.IOException; import org.apache.tika.exception.TikaException; import org.apache.tika.metadata.Metadata; imp
2.6 HTML 文档结构

之前我们讨论的都是HTML文档中的片段，除了这些局部语法外，一个合法的HTML文档还有整体性的结构要求。文档类型（Doctype）首先需要定义文档的类型：Doctype。我们可以把Doctype看成HTML语言的版本，就好比Word97和Word2001一样。不同版本之间的语法约定不尽相同，但通常会保持向下兼容，好比Word2001能打开Word97的文档一样。以前XHTML 1.0 和
HTML和XHTML文档类型

本文向大家介绍HTML和XHTML文档类型，包括了HTML和XHTML文档类型的使用技巧和注意事项，需要的朋友参考一下为了验证HTML或XHTML的任何页面，您将需要一个doctype。这是一串文本，位于文档顶部，可告诉浏览器确切的标记标准已用于创建页面。 XHTML严格当您不使用任何框架集或折旧标签时，此doctype将在XHTML文档中使用。 <!DOCTYPE html PUBLIC "
自动生成 HTML 文档

An expert is someone who is one page ahead of you in the manual. — David Knight 像大多数工程师一样，我从来没有阅读过手册，除非或者直到产品实际出现了十万火急的情况。然而，随着你的配置清单代码不断增多且越来越复杂，使用 Puppet 的自动文档工具 puppet doc 为你的节点（node）和类（class）生成 H
如何使用JSOUP解析HTML文档中的“tagname”元素列表？

（下的唯一div）还有更多关于参数的... 我也给了任何其他标签一个镜头，但我得到同样的问题。最接近成功的是:。这将返回所有视频标题。但可悲的是，也有一些与其他文本的其他链接。因此不可靠。下面是实现JSOUP的代码：我尝试提取的示例：我正在查找的HTML块的图像我好像错过了很多人说Jsoup很棒很简单的东西...（在我的情况下不是：v）
python解析html提取数据，并生成word文档实例解析

本文向大家介绍python解析html提取数据，并生成word文档实例解析，包括了python解析html提取数据，并生成word文档实例解析的使用技巧和注意事项，需要的朋友参考一下简介今天试着用ptyhon做了一个抓取网页内容，并生成word文档的功能，功能很简单，做一下记录以备以后用到。生成word用到了第三方组件python-docx，所以先进行第三方组件的安装。由于windows下安

同类工具

Ono Loofah HtmlCleaner NSoup Goutte VietSpider Oga Cobra

相关阅读

在jQuery中提取HTML文档的一部分 python-xpath获取html文档的部分内容编辑，保存，自修改HTML文档；格式生成的HTML，JavaScript 如何从Java Servlet返回HTML文档？如何在HTML文档中包含Modernizr？

相关文章

Java SAX解析器解析XML文档 Java DOM解析器解析XML文档 Java DOM4J解析器修改XML文档 Java DOM4J解析器创建XML文档 Java DOM4J解析器查询XML文档

相关问答

html+google.maps.infowindow（）+外部源xml文档（XMLHttpRequest）如何使HTML文档覆盖自身 DOCX4J:在窗格中查看HTML导出的文档文件用Java实现HTML到文档的图像转换 OneNote解析--如何找到文档中的文本Blobs？

相关文档

PWA 文档 Flarum 文档 MetaMask 文档 MathJax 中文文档 PhoneGap 中文文档