我想将jsoup解析为utf -8,但我不能。我尝试了我所知道的一切,然后在Google上进行了搜索。
我的目标是:
String tmp_html_content ="Öç";
InputStream is = new ByteArrayInputStream(tmp_html_content.getBytes());
Document doc_tbl = Jsoup.parse(is, "UTF-8", "");
doc_tbl.outputSettings().charset().forName("UTF-8");
doc_tbl.outputSettings().escapeMode(EscapeMode.xhtml);
但是doc_tbl
不是UTF-8
。
请帮忙
public static void main(String []args){
System.out.println("Hello World");
String tmp_html_content ="Öçasasa";
InputStream is = new ByteArrayInputStream(tmp_html_content.getBytes());
org.jsoup.nodes.Document doc_tbl;
try {
doc_tbl = Jsoup.parse(is, "ISO-8859-9", "");
((org.jsoup.nodes.Document) doc_tbl).outputSettings().charset().forName("UTF-8");
((org.jsoup.nodes.Document) doc_tbl).outputSettings().escapeMode(EscapeMode.xhtml);
String htmlString = doc_tbl.toString();
System.out.println(htmlString);
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
你好世界Öçasasa
问题内容: 我刮了几个网站,其中一些包含非拉丁字符和特殊字符,如行情,而不是和用于撇号,而不是。 这是真正的曲线球… 我已将相关文本打印到控制台。当我在IDE(Netbeans)中运行时,一切都可以正常编码。但是,当我在计算机上运行它时,它的打印输出为:… 在有人说之前,我需要设置我的环境变量以让我说我已经做到了,但这仍然是一个问题。此外,我是否还应该为缓冲的阅读器指定编码,以使其覆盖呢? 这是一
我在我的Jsoup项目中有这个有线senario 这是中的一个bug,还是标记名“”有什么特殊的地方? 注意:Jsoup版本使用了1.6和1.9。Java 7和8
我试图通过类名获取一些元素。以下是HTML文件: 在这里,我想得到的是,具有类="product-grid lid-leve-5"的div。这是我所做的: 这段代码成功地获取了id为“content”的div。然后当我尝试时, 它返回空值。我做错了什么?那个div的class属性的名字不就是“产品-网格边距-左-5”吗?有人能帮忙吗? 谢谢
问题内容: 我有一个问题,当XML文件中存在UTF-8字符时,我的DOM解析器无法加载文件现在,我知道我必须给他指令以读取utf-8,但我不知道如何放置它在我的代码中,它是: 我知道有方法setencoding(),但我不知道将其放在代码中的位置… 问题答案: 试试这个。 为我工作
问题内容: 编译Java文件时,它将生成一个.class文件。现在,此.class文件具有JVM解释的字节码。当我们在文本编辑器中打开.class文件时,它不是人类可读的。现在要查看字节码,可以使用像javap这样的反汇编程序。 我的问题是,为什么我们需要分解字节码才能查看字节码本身? 反汇编程序实际上是如何将.class文件转换为人类可读格式的? 问题答案: Java虚拟机模拟一台计算机。这就是
问题内容: 最近,我阅读了很多有关Unicode代码点的信息,以及它们随着时间的演变,并确保我也阅读了http://www.joelonsoftware.com/articles/Unicode.html。 但是我找不到真正的原因是Java为什么将UTF-16用作字符。 例如,如果我的字符串包含1024个ASCII范围的字母。这意味着等于2KB的字符串内存,它将以任何方式消耗。 因此,如果Java