当前位置: 首页 > 知识库问答 >
问题:

没有剥离转义的html字符

聂和宜
2023-03-14

我有一个标准的json结构,里面有这样的内容

我正在使用jSoup剥离标签。但是我得到的输出如下

这是html内容

JSoup不能剥离具有转义字符的结束标记。

注意:一个标准的JSON数据格式将考虑<代码> /<代码>作为特殊字符并跳过它。

java中有没有标准的json库可以做到这一点?


共有1个答案

马欣荣
2023-03-14

由于您没有提供完整的HTML,我无法告诉您HTML是否有效。然而,JSoup也试图充分利用无效的HTML。(因此该库的名称为:JSoup,它充分利用了HTML Soup)

无论如何,如果你发现

所以JSoup所做的正是应该发生的事情。

我想你可能想分析你的超文本标记语言的来源。它似乎经历了一些改变超文本标记语言有效性的处理。我想你应该试着用原始的超文本标记语言来喂养JSoup。

我知道您的HTML是JSON格式字符串的一部分。也许您应该尝试分析如何进一步处理该字符串,以使其再次成为有效的HTML。重复此过程,然后将其馈送到JSoup

 类似资料:
  • 问题内容: 如何从字符串中删除HTML标签,以便可以输出纯文本? 问题答案: 嗯,我尝试了您的功能,并在一个小例子上工作了: 你能举一个例子吗? Swift 4和5版本:

  • 问题内容: 寻找匹配和替换的正则表达式序列(最好是PHP,但没关系)以更改此规则(开始和结束只是需要保留的随机文本)。 在: 到这个OUT: 谢谢。 问题答案: 您是否只是想删除评论?怎么样 或稍好一点(由发问者本人建议): 但是请记住,HTML 不是 正规的,因此当有人向其抛出奇怪的边缘情况时,使用正则表达式进行解析将使您陷入痛苦的世界。

  • 问题内容: 当在HTML文件中打印一行时,我试图找到一种仅显示每个HTML元素的内容而不显示格式本身的方法。如果找到,它将仅打印“某些文本”,打印“ hello”,等等。如何去做呢? 问题答案: 我一直使用此函数来剥离HTML标记,因为它仅需要Python stdlib: 对于Python 3: 对于Python 2:

  • 问题内容: 我已经看到很多表达式可以删除一个特定的标签(或许多指定的标签),一个可以删除除一个特定标签之外的所有标签,但是我没有找到一种方法来删除其中除许多除外(即所有除外)之外的所有标签。 PHP。我对正则表达式不是很满意,所以我需要帮助。:) 谢谢! 问题答案: 确实做到这一点。

  • 问题内容: 是否存在现有的Java库,该库提供了一种从字符串中剥离所有HTML标记的方法?我正在寻找与PHP中的功能等效的东西。 我知道我可以使用这个问题中描述的正则表达式,但是我很好奇,是否可能已经有一种方法可以在Apache Commons库中的某个地方使用。 问题答案: 在开放了将近一个星期的问题之后,我可以肯定地说,Java API或Apache库中没有可用的方法可从字符串中剥离HTML标

  • 问题内容: 我需要用ajax调用产生的html替换页面中div的内容。问题是html中包含一些必要的脚本,并且jquery html()函数似乎将它们剥离了,我需要过滤响应并仅获取特定的div。 我正在考虑一种解决方法,该方法是从ajax响应中提取所有脚本标签,然后将其附加到DOM中,但是这样做很麻烦。 这是我的代码; 但这是任何结论。我尝试了那里提出的解决方案,但没有一个起作用。 编辑:我似乎找