当前位置: 首页 > 面试题库 >

在Java中剥离HTML标签

穆英飙
2023-03-14
问题内容

是否存在现有的Java库,该库提供了一种从字符串中剥离所有HTML标记的方法?我正在寻找strip_tags与PHP中的功能等效的东西。

我知道我可以使用这个问题中描述的正则表达式,但是我很好奇,是否可能已经有一种stripTags()方法可以在Apache
Commons库中的某个地方使用。


问题答案:

在开放了将近一个星期的问题之后,我可以肯定地说,Java
API或Apache库中没有可用的方法可从字符串中剥离HTML标记。您将不得不使用前面的答案中所述的HTML解析器,或者编写一个简单的正则表达式来去除标签。



 类似资料:
  • 问题内容: 我需要用ajax调用产生的html替换页面中div的内容。问题是html中包含一些必要的脚本,并且jquery html()函数似乎将它们剥离了,我需要过滤响应并仅获取特定的div。 我正在考虑一种解决方法,该方法是从ajax响应中提取所有脚本标签,然后将其附加到DOM中,但是这样做很麻烦。 这是我的代码; 但这是任何结论。我尝试了那里提出的解决方案,但没有一个起作用。 编辑:我似乎找

  • 问题内容: 如何从字符串中删除HTML标签,以便可以输出纯文本? 问题答案: 嗯,我尝试了您的功能,并在一个小例子上工作了: 你能举一个例子吗? Swift 4和5版本:

  • 问题内容: 我有这个HTML输入: 我想使用正则表达式删除HTML标记,以便输出为: 谁能建议使用正则表达式执行此操作? 问题答案: 您可以使用称为Jericho Html解析器的HTML解析器。 您可以从这里下载-http://jericho.htmlparser.net/docs/index.html Jericho HTML Parser是一个Java库,允许对HTML文档的各个部分(包括服

  • 问题内容: 寻找匹配和替换的正则表达式序列(最好是PHP,但没关系)以更改此规则(开始和结束只是需要保留的随机文本)。 在: 到这个OUT: 谢谢。 问题答案: 您是否只是想删除评论?怎么样 或稍好一点(由发问者本人建议): 但是请记住,HTML 不是 正规的,因此当有人向其抛出奇怪的边缘情况时,使用正则表达式进行解析将使您陷入痛苦的世界。

  • 问题内容: 当在HTML文件中打印一行时,我试图找到一种仅显示每个HTML元素的内容而不显示格式本身的方法。如果找到,它将仅打印“某些文本”,打印“ hello”,等等。如何去做呢? 问题答案: 我一直使用此函数来剥离HTML标记,因为它仅需要Python stdlib: 对于Python 3: 对于Python 2:

  • 问题内容: 如何从JavaScript中的字符串中剥离HTML? 问题答案: 使用浏览器的解析器可能是当前浏览器中最好的选择。以下将起作用,但有以下警告: 您的HTML在一个元素内有效。HTML包含在或或标签无效内的,因此可能无法正确解析。 (DOM标准属性)和(非标准)属性不相同。例如,将在元素内包含文本,而在元素内则不(在大多数浏览器中)。这只会影响IE <= 8,这是唯一不支持的主要浏览器。