问题：

防止JSOUP的HTML解析器将单个标记转换为自关闭标记

车胤运

2023-03-14

有什么方法可以阻止JSOUP的HTML解析器将单个标记（最具体地说是标记）转换成自闭标记吗？

标记是有效的HTML5元素，但Jsoup不断将它们转换为。

http://try.jsoup.org/~zcil6-fonhhqagaapm2tortfoo0

我需要弄清楚如何禁用这个行为，但是我在翻阅了文档和示例之后还没弄清楚怎么做。也许这还不是一个选择？

共有1个答案

喻子航

2023-03-14

在通读了代码之后，Jsoup的作者似乎已经修复了这个提交中的问题。

类似资料：

JSoup-逐标记解析HTML标记

我实际上正在用Java开发一个文本解析器，有人要求我通过用它解析HTML来增强它。解析器的目的是将被解析的文件分成另外三个文件，一个包含文件中包含的所有单词，一个包括所有句子，另一个包含所有问题。 *.txt部分工作得很好，但我在解析HTML时遇到了一个问题。我创建了一个扩展名为*.txt的临时文件，并将其在我的文本解析器中传递，但是如果我传递一个带有HTML文件链接的URL，其格式如下所示：
使用Jsoup解析HTML div标记

我试图从这些div标签中获取文本，但是它们都不返回任何内容: HTML: 我想得到div类“消息”和h4标记和跨越“日期时间”中的文本，我试图：和：但是他们没有成功。
转换 html 行时缺少 JSOUP 标记

我在jsoup中遇到了一个问题，我希望获得一行数据，稍后我将把该行插入另一个html文档中。但当我检查时，时间发现没有和标签。我该怎么解决呢
使用jsoup解析XML-防止jsoup“清除” 标签

问题内容：在大多数情况下，使用jsoup解析XML都没有问题。但是，如果有XML文档中的标签，jsoup将改变到。这样就无法使用CSS选择器提取标签内的文本。那么如何防止jsoup“清除” 标签呢？问题答案：在jsoup 1.6.2中，我添加了XML解析器模式，该模式可以按原样解析输入，而无需应用HTML5解析规则（元素内容，文档结构等）。此模式将文本保留在标签中，并允许其倍数等。这是
JSoup使用未关闭的标签解析无效的HTML

问题内容：使用最新的JSoup 1.7.2版存在一个错误，该错误分析带有未关闭标签的* 无效 HTML 。 * 例：生成的文档为：浏览器将生成如下内容： Jsoup应该用作浏览器或源代码。有什么解决办法吗？调查API我什么也没找到。问题答案：正确的行为是在解析此无效的HTML时充当其他浏览器。感谢您提交此错误。我已解决了阻止采用机构将原始属性保留在新节点中的问题。它将在1.7.3中可
使用jsoup替换HTML标记

这是我的密码我想替换字体标签，并把span标签。在这将取代第一个字体标签但不是第二个标签

防止JSOUP的HTML解析器将单个标记转换为自关闭标记

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档