当前位置: 首页 > 工具软件 > Jericho > 使用案例 >

通过jericho获取网页编码

燕青青
2023-12-01

通过jericho获取网页编码

public class MyParser {

	/**
	 * 通过parser解析页面
	 * @param parserSource 要被解析的网页源文件
	 */
	public void parserSource(String parserSource) {
		
		Source source = new Source(parserSource);
		
		System.out.println("\n被解析页面标题:");
		Element titleElement=source.getFirstElement(HTMLElementName.TITLE);
		System.out.println(titleElement!=null ? titleElement.getContent().toString() : "(none)");
		
		System.out.println("\n页面编码为:");
		System.out.println(source.getEncoding());
		
		System.out.println("\n页面具体编码信息为:");
		System.out.println(source.getEncodingSpecificationInfo());
		
	}

}

输出结果为:

被解析页面标题:
i'm title

页面编码为:
gb2312

页面具体编码信息为:
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">




 类似资料: