当前位置: 首页 > 面试题库 >

从字符串中删除HTML标签

高钱青
2023-03-14
问题内容

是否有从Java字符串中删除HTML的好方法?一个简单的正则表达式

 replaceAll("\\<.*?>","")

会起作用,但是&amp;不会正确转换,并且两个尖括号之间的非HTML也会被删除(即.*?,正则表达式中的将会消失)。


问题答案:

使用HTML解析器代替正则表达式。对于Jsoup来说,这简直太简单了。

public static String html2text(String html) {
    return Jsoup.parse(html).text();
}

Jsoup还支持对可定制的白名单,如果你希望只允许例如这是非常有用的去除HTML标签<b><i><u>



 类似资料:
  • 问题内容: 是否有从Java字符串中删除HTML的好方法?一个简单的正则表达式 会起作用,但是;不会正确转换,并且两个尖括号之间的非HTML也会被删除(即.,正则表达式中的将会消失)。 问题答案: 如果你是为Android编写的,则可以这样做…

  • 问题内容: 我想显示数据库条目的前110个字符。到目前为止很简单: 但是上面的条目中包含由客户端输入的html代码。因此它显示: 显然没有好处。 我只想剥离所有html代码,所以我需要从数据库条目中删除<和>之间的所有内容,然后显示前100个字符。 有任何想法吗? 问题答案: 采用

  • 问题内容: 如何在C#中使用正则表达式删除所有HTML标记,包括&nbsp。我的弦看起来像 问题答案: 如果您不能使用面向HTML解析器的解决方案来过滤标签,则这里有一个简单的正则表达式。 理想情况下,您应该再次通过正则表达式过滤器,该过滤器将多个空格

  • 问题内容: 使用ASP.NET,如何可靠地剥离给定字符串中的HTML标签(即不使用正则表达式)?我正在寻找类似PHP的东西。 例: 输出: “你好” 我尝试不重新发明轮子,但是到目前为止,我还没有找到任何满足我需求的东西。 问题答案: 如果只是从字符串中剥离 所有 HTML标记,则这也可以与regex 可靠地 一起工作。更换: 与空字符串,全局。不要忘了之后将字符串标准化,替换为: 与单个空格,并

  • 本文向大家介绍如何从JavaScript中的字符串中删除html标签?,包括了如何从JavaScript中的字符串中删除html标签?的使用技巧和注意事项,需要的朋友参考一下 从字符串中删除HTML标签 我们可以使用javascript中的正则表达式删除字符串中的HTML / XML 标签。HTML元素(例如span,div等)出现在左右箭头之间,例如<div>,<span>等。因此,用nothi

  • 问题内容: 嘿,我需要删除字符串中的所有图像,但我找不到正确的方法。 这是我尝试过的方法,但是不起作用: 有任何想法吗? 问题答案: 尝试将放到的前面。 编辑:我刚刚测试了您的正则表达式,它工作正常。这是我使用的: 结果是: