问题：

当使用JSOUP库在Java中读取、、、等标记时，如何保留它们的含义？

尉迟安民

2023-03-14

第1行

第2行

元素1
元素2

private String getTitle(Document doc) { // doc is the local HTML file
    Elements title = doc.select(".title");
    for (Element id : title) {
     return id.text();
    }
    return "No Title Available ";
}

共有1个答案

仲孙宇定

2023-03-14

只是为了给大家一个更新，我能够找到一个格式问题的解决方案（更像是一个变通办法）。我现在所做的是使用id.HTML()提取完整的HTML，我将其存储在String对象中。然后，我使用带正则表达式的字符串函数replaceAll()来删除所有HTML标记，而不将所有内容推到一行中。ReplaceAll()函数类似于ReplaceAll(\\<[^>]*>“,”“）。我的整个processhtml()函数类似于：

private String processHTML(String initial) { //initial is the String with all the HTML tags
        String modified = initial;
        modified = modified.replaceAll("\\<[^>]*>",""); //regular expression used
        modified = modified.trim(); //To get rid of any unwanted space before and after the needed data
        //All the replaceAll() functions below are to get rid of any HTML entities that might be left in the data extarcted from the HTML
        modified = modified.replaceAll("&nbsp;", " ");
        modified = modified.replaceAll("&lt;", "<");
        modified = modified.replaceAll("&gt;", ">");
        modified = modified.replaceAll("&amp;", "&");
        modified = modified.replaceAll("&quot;", "\"");
        modified = modified.replaceAll("&apos;", "\'");
        modified = modified.replaceAll("&cent;", "¢");
        modified = modified.replaceAll("&copy;", "©");
        modified = modified.replaceAll("&reg;", "®");
        return modified;
    }

再次感谢你们帮我做这件事

干杯。

类似资料：

如何使用JSOUP按标记获取元素？-java

如何使用JSoup（http://JSoup.org/）按标记获取元素？但它输出：
使用Jsoup在保留内部HTML的同时解析和删除锚标记

我必须解析一些html并移除锚标记，但我需要保留锚标记的innerHTML 例如，如果我的html文本是：现在我可以解析上面的html并在jsoup中选择如下所示的标记, 我可以通过，但是它会从开始括号到结束括号删除完整的achor标记，并且内部html会丢失，如何才能保留只删除开始和结束标记的内部html。另外，请注意：我知道有从元素中获取outerHTML（）和innerHTML（）的方
当javascript键为整数时保留它们的顺序

然而，顺序是将示例5放在底部，而不是在其正确的位置。在阅读之后，我意识到对象键没有正确排序（按键排序JavaScript对象），并且JSON键不能是整数（按键排序JavaScript对象）。我需要保留对象顺序，而不是自动排序。原因是它的一个ID必须保持不变（所以没有数组替代）。我是错过了一些简单的东西，还是需要重新思考/工作？
使用java中的JSOUP库从HTML中读取内容

我有如下的HTML电子邮件体。我想获取emailBody中存在的每个元素（公司、优先级、描述等），最后生成Json键值对。我希望通过使用JSOUP库我们能够实现这一点。预期输出如下所示：有人能帮我解决这个问题吗？
Java-使用Jsoup获取脚本标记中的文本

我正在使用Jsoup库读取URL。此url的文本在几个
使用java和jsoup从html标记中提取值

我有这个html 并且，我试图得到每个标签的href。例如，

当使用JSOUP库在Java中读取、、、等标记时，如何保留它们的含义？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档