当前位置: 首页 > 面试题库 >

防止Jsoup丢弃多余的空格

岳风畔
2023-03-14
问题内容

我正在使用Jsoup清理来自表单的用户输入。有问题的表单包含一个<textarea>要求纯文本的表单。提交表单后,我使用Jsoup.clean(textareaContents);
清除输入。但是,由于html会忽略多余的空格,Jsoup.clean()因此将从输入中删除有价值的空格字符。

例如,如果有人在中输入了一些文本行textarea

hello

test

之后Jsoup.clean(),您将拥有:

hello test

如何使Jsoup.clean()保留空白?我知道它是为解析html而设计的,而不是html,因此还有更好的选择吗?


问题答案:

如果您的textarea只希望使用纯文本,那么我认为最好是HTML转义纯文本。即分别将用户的输入<>标签转换为&lt;&gt;。输入我们的输出(输入可能更安全,因此您只需要考虑一下)。

该jsoup HTML清洁剂是,如你所说,旨在解析不可信输入HTML和outuput信任的HTML,其中格式化与元素来完成。



 类似资料:
  • 问题内容: 我有以下代码片段: 当我输入以下内容时: 结果是: 怎么来的?我如何保留评论? 编辑 :我不在乎使用的确切xml库,但是,我应该能够对标记进行粘贴的更改。不幸的是,lxml似乎不允许这样做(而且我无法使用正确的名称空间操作) 问题答案: 您不能使用,因为它的解析器会忽略注释(顺便说一下,这对于xml解析器来说是可以接受的行为)。但是,如果您使用(兼容)lxml库,则可以使用它,它允许您

  • 似乎都没用。

  • 除了前一节介绍的权重衰减以外,深度学习模型常常使用丢弃法(dropout)[1] 来应对过拟合问题。丢弃法有一些不同的变体。本节中提到的丢弃法特指倒置丢弃法(inverted dropout)。 方法 回忆一下,“多层感知机”一节的图3.3描述了一个单隐藏层的多层感知机。其中输入个数为4,隐藏单元个数为5,且隐藏单元$h_i$($i=1, \ldots, 5$)的计算表达式为 $$h_i = \p

  • Google数据丢失预防API支持.pdf还是.docx?我正在尝试在Java中对*.pdf文件做缩减,以隐藏敏感数据。 多谢!EMI

  • 问题内容: 在大多数情况下,使用jsoup解析XML都没有问题。但是,如果有XML文档中的标签,jsoup将改变到。这样就无法使用CSS选择器提取标签内的文本。 那么如何防止jsoup“清除” 标签呢? 问题答案: 在jsoup 1.6.2中, 我添加了XML解析器模式,该模式可以按原样解析输入,而无需应用HTML5解析规则(元素内容,文档结构等)。此模式将文本保留在标签中,并允许其倍数等。 这是

  • 我有一个JSON响应,看起来像这样: 有了这个杰克逊模型: 由于某种原因,当我提取属性值时,它会丢失字段的引号,冒号被等号替换。 出现以下错误: 有什么想法吗?