当前位置: 首页 > 知识库问答 >
问题:

Jsoup清理我的html

上官淮晨
2023-03-14

我正在尝试学习如何使用Jsoup清理HTML代码

我想删除

public class prb {
    public static void main(String[] args) throws Exception {
        String i = "<p>Text 1234 <body>WOW</body> Text 1234</p><p>Text 1234</p>";

        System.out.println(getStringWithoutHtmlTags(i));
    }

    public static String getStringWithoutHtmlTags(String text) {
        Whitelist asd = new Whitelist();
        asd.addTags("<p>", "</p>");
        asd.removeTags("<body>, </body>");

        return Jsoup.clean(text, asd);
    }
}

但它删除了所有标签。输出为:

文本1234 WOW文本1234文本1234

我做错了什么?

先谢谢你。


共有1个答案

白坚壁
2023-03-14

您在编写标记时出错,因为asd。添加标签(“

因此,正如文件所说:

asd.addTags("p");
asd.removeTags("body");

更多关于WhiteList的标签/属性/procools的详细信息: JSoup白名单

 类似资料:
  • 主要内容:Jsoup 清理HTML 语法,Jsoup 清理HTML 说明,Jsoup 清理HTML 示例以下示例将展示 XSS 攻击或跨站点脚本攻击的预防。 Jsoup 清理HTML 语法 Jsoup : 解析给定 HTML 字符串的主类。 html : 初始 HTML 字符串。 safeHtml : 清理过的 HTML。 Whitelist : 提供默认配置以保护 html 的对象。 clean() : 使用白名单清理 html。 Jsoup 清理HTML 说明 Jsoup 对象使用白名单配置

  • 问题内容: 当我创建/调试docker映像/容器docker时,似乎在我的系统上留下了各种工件。(有一点限制为48张图像),但是我上次查看的图像为20-25张;。 因此,首要问题是: 如何正确清理? 当我手动删除图像时,更多的图像开始出现。嗯? 我应该为主机真正分配多少磁盘空间? 下次重启后,正在运行的守护程序会真正重启吗? 以及meta问题…我没有问过什么问题? 问题答案: 删除“晃来晃去”的图

  • 问题内容: 在大多数情况下,使用jsoup解析XML都没有问题。但是,如果有XML文档中的标签,jsoup将改变到。这样就无法使用CSS选择器提取标签内的文本。 那么如何防止jsoup“清除” 标签呢? 问题答案: 在jsoup 1.6.2中, 我添加了XML解析器模式,该模式可以按原样解析输入,而无需应用HTML5解析规则(元素内容,文档结构等)。此模式将文本保留在标签中,并允许其倍数等。 这是

  • Clean,清理。把未跟踪的文件清理掉。 练习 1,在项目下面新建一个文件,名字是 demo.md。 touch demo.md 然后查看状态,会返回: On branch master Untracked files: (use "git add <file>..." to include in what will be committed) demo.md nothing a

  • 虽然浮动可以便于页面布局,但同时会产生一些问题,也就是常说的副作用。浮动元素最常见的缺陷是:父元素的高度塌陷和影响兄弟元素的位置。 首先,看看父元素的高度塌陷。假设有一个容器,其中两个子元素,一个子元素向左浮动,一个子元素向右浮动。代码如下: .wrapper {     border: 2px dashed #ccc; } .wrapper > div {     width: 80px;  

  • 问题内容: 我正在考虑添加富文本编辑器,以允许非程序员更改文本的外观。但是,一个问题是,如果标记不正确,则可能会扭曲渲染页面的布局。什么是清除html的好方法? 问题答案: 您将不得不在好和轻量之间做出选择。推荐的选择是“HTMLPurifier”,因为它提供了安全的默认设置。作为更快的替代方法,通常建议使用“htmLawed”。