通过jericho获取网页编码
public class MyParser {
/**
* 通过parser解析页面
* @param parserSource 要被解析的网页源文件
*/
public void parserSource(String parserSource) {
Source source = new Source(parserSource);
System.out.println("\n被解析页面标题:");
Element titleElement=source.getFirstElement(HTMLElementName.TITLE);
System.out.println(titleElement!=null ? titleElement.getContent().toString() : "(none)");
System.out.println("\n页面编码为:");
System.out.println(source.getEncoding());
System.out.println("\n页面具体编码信息为:");
System.out.println(source.getEncodingSpecificationInfo());
}
}
输出结果为:
被解析页面标题:
i'm title
页面编码为:
gb2312
页面具体编码信息为:
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">