当前位置：首页 > 软件库 > Web应用开发 > HTML解析器 >

Jericho

HTML 解析器

授权协议 LGPL

开发语言 Java

所属分类 Web应用开发、 HTML解析器

软件类型开源软件

地区不详

投递者和飞翔

操作系统跨平台

开源组织无

适用人群未知

软件官网

官方下载

软件概览

Jericho HTML解析器是一个Java库，以分析和操纵部分的HTML文件，其中包括服务器端的标签，而过滤掉任何无法识别的或无效的HTML 。它也提供高层次的HTML表单操作函数。

示例代码：

import net.htmlparser.jericho.*;
import java.util.*;
import java.io.*;
import java.net.*;

public class Encoding {
	public static void main(String[] args) throws Exception {
		String sourceUrlString="data/test.html";
		if (args.length==0)
		  System.err.println("Using default argument of \""+sourceUrlString+'"');
		else
			sourceUrlString=args[0];
		if (sourceUrlString.indexOf(':')==-1) sourceUrlString="file:"+sourceUrlString;
		System.out.println("\nSource URL:");
		System.out.println(sourceUrlString);
		URL url=new URL(sourceUrlString);
		Source source=new Source(url);
		System.out.println("\nDocument Title:");
		Element titleElement=source.getFirstElement(HTMLElementName.TITLE);
		System.out.println(titleElement!=null ? titleElement.getContent().toString() : "(none)");
		System.out.println("\nSource.getEncoding():");
		System.out.println(source.getEncoding());
		System.out.println("\nSource.getEncodingSpecificationInfo():");
		System.out.println(source.getEncodingSpecificationInfo());
		System.out.println("\nSource.getPreliminaryEncodingInfo():");
		System.out.println(source.getPreliminaryEncodingInfo());
	}
}

使用案例

html分析器——jericho-html-3.3分解table

原部分来自Internet上的其他博客，只是因为很长一段时间。忘了谁是参考，这里说声抱歉。。先贴一些html页： <html> <head> <meta http-equiv="content-type" content="text/html;charset=GBK"> <title>HTML Parser</title> <meta name="generator" content="Namo
Jericho Html paser详解

Jericho Html paser详解 Jericho Html parseAPI: http://jericho.htmlparser.net/docs/javadoc/index.html 1：Source 在解析Html文档中第一步就是创建一个Source对象，该对象的构造方法如下： Source(java.lang.CharSequence text) Cons
Jericho!Go!Go!Go!

今天注册了我在CSDN的学习博客,我将会在这里记录自己在嵌入式学习这条大道上前进的点点滴滴,并不断鼓励自己努力,坚持,忍耐,要在嵌入式领域里干出点成绩!!!!!
HTML 解析器 Jericho

Jericho HTML解析器是一个Java库，以分析和操纵部分的HTML文件，其中包括服务器端的标签，而过滤掉任何无法识别的或无效的HTML 。它也提供高层次的HTML表单操作函数。 http://www.oschina.net/action/project/go?id=8344&p=download 示例代码： import net.htmlparser.jericho.*; import j
使用HttpClient+Jericho HTML Parser 实现网页抓取

Jericho HTML Parser是一个简单而功能强大的Java HTML解析器库，可以分析和处理HTML文档的一部分，包括一些通用的服务器端标签，同时也可以重新生成无法识别的或无效的HTML。它也提供了一个有用的HTML表单分析器。下载地址:http://sourceforge.net/project/showfiles.php?group_id=101067 HttpClient作为H
通过jericho获取网页编码

通过jericho获取网页编码 public class MyParser { /** * 通过parser解析页面 * @param parserSource 要被解析的网页源文件 */ public void parserSource(String parserSource) { Source source = new Source(parserSource);
jericho-html解析html的一个例子

<span style="font-size:18px;">public static void main(String[] args) throws ClientProtocolException, IOException { CloseableHttpClient client = HttpClients.createDefault(); HttpGet get = new HttpG
用jericho jar包来解析HTML页面示例

import net.htmlparser.jericho.Element; import net.htmlparser.jericho.HTMLElementName; import net.htmlparser.jericho.Source; import java.io.File; import java.io.IOException; public class HtmlBeanUtil {
解析html，还是jericho html parser 好用

一晚上搜索 JTidy，html parser，hotSax，结果还是 jericho html parser 好用。除了包名起得很长以外。以后html可以随意解析了。
对抓取网页进行操作--jericho

此文是对上一篇qq申请器的一个小完善，主要是解决当html数据被抓取后如何进行操作的问题 package bipt.com.qqapaly; import java.util.List; import net.htmlparser.jericho.*; public class FindNumber { Source source; List<Element> element;
使用jericho htmlparser解析html中的table,轻松获取表格中的内容

1.使用htmlparser.jericho方法来实现 2.通过列和行来定位表格元素。获取表格元素 3.可以获取所有的表格。 4.对于表格嵌套的话，可能还需要做相应更改 package com.fresheggs.web; import java.io.IOException; import java.net.MalformedURLException; import java.net.URL;

Jericho

同类工具

相关阅读

相关文章

相关问答

相关文档