当前位置: 首页 > 面试题库 >

正则表达式剥离HTML标签

能业
2023-03-14
问题内容

我有这个HTML输入:

<font size="5"><p>some text</p>
<p> another text</p></font>

我想使用正则表达式删除HTML标记,以便输出为:

some text
another text

谁能建议使用正则表达式执行此操作?


问题答案:

您可以使用称为Jericho Html解析器的HTML解析器。

您可以从这里下载-http://jericho.htmlparser.net/docs/index.html

Jericho HTML
Parser是一个Java库,允许对HTML文档的各个部分(包括服务器端标签)进行分析和操作,同时逐字再现任何无法识别或无效的HTML。它还提供了高级HTML表单操作功能。

格式错误的HTML的存在不会干扰解析



 类似资料:
  • 我想验证输入的代码是否是HTML代码(必须以<代码> 我试着这么做 但是我有一个问题需要在代码中做一个\n,我需要验证第一个和结束标签(=

  • 问题内容: 我有这样的数字,需要删除前导零。 这是我需要的: -> -> 我无法解决这个问题,因为我是正则表达式的新手。这不起作用: 问题答案: 您快到了。您只需要量词: 它用空字符串替换字符串开头(由caret-给出)中出现1次或多次出现的0(这是量词的意思。类似地,我们有量词,表示0或更多)。

  • 问题内容: 是否存在现有的Java库,该库提供了一种从字符串中剥离所有HTML标记的方法?我正在寻找与PHP中的功能等效的东西。 我知道我可以使用这个问题中描述的正则表达式,但是我很好奇,是否可能已经有一种方法可以在Apache Commons库中的某个地方使用。 问题答案: 在开放了将近一个星期的问题之后,我可以肯定地说,Java API或Apache库中没有可用的方法可从字符串中剥离HTML标

  • 问题内容: 我需要用ajax调用产生的html替换页面中div的内容。问题是html中包含一些必要的脚本,并且jquery html()函数似乎将它们剥离了,我需要过滤响应并仅获取特定的div。 我正在考虑一种解决方法,该方法是从ajax响应中提取所有脚本标签,然后将其附加到DOM中,但是这样做很麻烦。 这是我的代码; 但这是任何结论。我尝试了那里提出的解决方案,但没有一个起作用。 编辑:我似乎找

  • 问题内容: 因此,我对 正则表达式 完全 陌生 ,并且正在尝试使用Java 来查找输入字符串中的标点符号。我不知道会提前得到哪种标点符号,只是(1)!,?,。,…都是有效的标点符号,以及(2)“ <”和“>”表示特殊含义,并且不算作标点符号。该程序本身会伪随机地构建短语,我想在它经历随机过程之前先删除句子结尾处的标点符号。 我可以用任何标点符号匹配整个单词,但匹配器只为我提供该单词的索引。换一种说

  • 问题内容: 首先,我阅读以下文档 http://download.oracle.com/javase/1.4.2/docs/api/java/util/regex/Pattern.html 而且我想找到除@’之外的任何标点符号,但我不太了解。 这是 : 结果是没有匹配。 是否有任何不匹配? 谢谢 MRizq 问题答案: 您要匹配两个字符,而不是一个。使用(负)前瞻应解决以下任务: