第1行
第2行
private String getTitle(Document doc) { // doc is the local HTML file
Elements title = doc.select(".title");
for (Element id : title) {
return id.text();
}
return "No Title Available ";
}
只是为了给大家一个更新,我能够找到一个格式问题的解决方案(更像是一个变通办法)。我现在所做的是使用id.HTML()
提取完整的HTML,我将其存储在String对象中。然后,我使用带正则表达式的字符串函数replaceAll()
来删除所有HTML标记,而不将所有内容推到一行中。ReplaceAll()
函数类似于ReplaceAll(\\<[^>]*>“,”“)
。我的整个processhtml()函数类似于:
private String processHTML(String initial) { //initial is the String with all the HTML tags
String modified = initial;
modified = modified.replaceAll("\\<[^>]*>",""); //regular expression used
modified = modified.trim(); //To get rid of any unwanted space before and after the needed data
//All the replaceAll() functions below are to get rid of any HTML entities that might be left in the data extarcted from the HTML
modified = modified.replaceAll(" ", " ");
modified = modified.replaceAll("<", "<");
modified = modified.replaceAll(">", ">");
modified = modified.replaceAll("&", "&");
modified = modified.replaceAll(""", "\"");
modified = modified.replaceAll("'", "\'");
modified = modified.replaceAll("¢", "¢");
modified = modified.replaceAll("©", "©");
modified = modified.replaceAll("®", "®");
return modified;
}
再次感谢你们帮我做这件事
干杯。
如何使用JSoup(http://JSoup.org/)按标记获取元素? 但它输出:
我必须解析一些html并移除锚标记,但我需要保留锚标记的innerHTML 例如,如果我的html文本是: 现在我可以解析上面的html并在jsoup中选择如下所示的标记, 我可以通过, 但是它会从开始括号到结束括号删除完整的achor标记,并且内部html会丢失,如何才能保留只删除开始和结束标记的内部html。 另外,请注意:我知道有从元素中获取outerHTML()和innerHTML()的方
然而,顺序是将示例5放在底部,而不是在其正确的位置。在阅读之后,我意识到对象键没有正确排序(按键排序JavaScript对象),并且JSON键不能是整数(按键排序JavaScript对象)。我需要保留对象顺序,而不是自动排序。原因是它的一个ID必须保持不变(所以没有数组替代)。 我是错过了一些简单的东西,还是需要重新思考/工作?
我有如下的HTML电子邮件体。 我想获取emailBody中存在的每个元素(公司、优先级、描述等),最后生成Json键值对。 我希望通过使用JSOUP库我们能够实现这一点。 预期输出如下所示: 有人能帮我解决这个问题吗?
我正在使用Jsoup库读取URL。此url的文本在几个
我有这个html 并且,我试图得到每个标签的href。 例如,