当前位置: 首页 > 知识库问答 >
问题:

当使用JSOUP库在Java中读取、、、等标记时,如何保留它们的含义?

尉迟安民
2023-03-14

第1行

第2行

    无序列表
  • 元素1
  • 元素2
private String getTitle(Document doc) { // doc is the local HTML file
    Elements title = doc.select(".title");
    for (Element id : title) {
     return id.text();
    }
    return "No Title Available ";
}

共有1个答案

仲孙宇定
2023-03-14

只是为了给大家一个更新,我能够找到一个格式问题的解决方案(更像是一个变通办法)。我现在所做的是使用id.HTML()提取完整的HTML,我将其存储在String对象中。然后,我使用带正则表达式的字符串函数replaceAll()来删除所有HTML标记,而不将所有内容推到一行中。ReplaceAll()函数类似于ReplaceAll(\\<[^>]*>“,”“)。我的整个processhtml()函数类似于:

private String processHTML(String initial) { //initial is the String with all the HTML tags
        String modified = initial;
        modified = modified.replaceAll("\\<[^>]*>",""); //regular expression used
        modified = modified.trim(); //To get rid of any unwanted space before and after the needed data
        //All the replaceAll() functions below are to get rid of any HTML entities that might be left in the data extarcted from the HTML
        modified = modified.replaceAll("&nbsp;", " ");
        modified = modified.replaceAll("&lt;", "<");
        modified = modified.replaceAll("&gt;", ">");
        modified = modified.replaceAll("&amp;", "&");
        modified = modified.replaceAll("&quot;", "\"");
        modified = modified.replaceAll("&apos;", "\'");
        modified = modified.replaceAll("&cent;", "¢");
        modified = modified.replaceAll("&copy;", "©");
        modified = modified.replaceAll("&reg;", "®");
        return modified;
    }

再次感谢你们帮我做这件事

干杯。

 类似资料:
  • 如何使用JSoup(http://JSoup.org/)按标记获取元素? 但它输出:

  • 我必须解析一些html并移除锚标记,但我需要保留锚标记的innerHTML 例如,如果我的html文本是: 现在我可以解析上面的html并在jsoup中选择如下所示的标记, 我可以通过, 但是它会从开始括号到结束括号删除完整的achor标记,并且内部html会丢失,如何才能保留只删除开始和结束标记的内部html。 另外,请注意:我知道有从元素中获取outerHTML()和innerHTML()的方

  • 然而,顺序是将示例5放在底部,而不是在其正确的位置。在阅读之后,我意识到对象键没有正确排序(按键排序JavaScript对象),并且JSON键不能是整数(按键排序JavaScript对象)。我需要保留对象顺序,而不是自动排序。原因是它的一个ID必须保持不变(所以没有数组替代)。 我是错过了一些简单的东西,还是需要重新思考/工作?

  • 我有如下的HTML电子邮件体。 我想获取emailBody中存在的每个元素(公司、优先级、描述等),最后生成Json键值对。 我希望通过使用JSOUP库我们能够实现这一点。 预期输出如下所示: 有人能帮我解决这个问题吗?

  • 我正在使用Jsoup库读取URL。此url的文本在几个

  • 我有这个html 并且,我试图得到每个标签的href。 例如,