有什么方法可以阻止JSOUP的HTML解析器将单个标记(最具体地说是
标记)转换成自闭标记吗?
标记是有效的HTML5元素,但Jsoup不断将它们转换为
。
http://try.jsoup.org/~zcil6-fonhhqagaapm2tortfoo0
我需要弄清楚如何禁用这个行为,但是我在翻阅了文档和示例之后还没弄清楚怎么做。也许这还不是一个选择?
在通读了代码之后,Jsoup的作者似乎已经修复了这个提交中的问题。
我实际上正在用Java开发一个文本解析器,有人要求我通过用它解析HTML来增强它。解析器的目的是将被解析的文件分成另外三个文件,一个包含文件中包含的所有单词,一个包括所有句子,另一个包含所有问题。 *.txt部分工作得很好,但我在解析HTML时遇到了一个问题。 我创建了一个扩展名为*.txt的临时文件,并将其在我的文本解析器中传递,但是如果我传递一个带有HTML文件链接的URL,其格式如下所示:
我试图从这些div标签中获取文本,但是它们都不返回任何内容: HTML: 我想得到div类“消息”和h4标记和跨越“日期时间”中的文本,我试图: 和: 但是他们没有成功。
我在jsoup中遇到了一个问题,我希望获得一行数据,稍后我将把该行插入另一个html文档中。但当我检查时,时间发现没有和标签。我该怎么解决呢
问题内容: 在大多数情况下,使用jsoup解析XML都没有问题。但是,如果有XML文档中的标签,jsoup将改变到。这样就无法使用CSS选择器提取标签内的文本。 那么如何防止jsoup“清除” 标签呢? 问题答案: 在jsoup 1.6.2中, 我添加了XML解析器模式,该模式可以按原样解析输入,而无需应用HTML5解析规则(元素内容,文档结构等)。此模式将文本保留在标签中,并允许其倍数等。 这是
问题内容: 使用最新的JSoup 1.7.2版存在一个错误,该错误分析带有 未关闭标签的* 无效 HTML 。 * 例: 生成的文档为: 浏览器将生成如下内容: Jsoup应该用作浏览器或源代码。 有什么解决办法吗?调查API我什么也没找到。 问题答案: 正确的行为是在解析此无效的HTML时充当其他浏览器。感谢您提交此错误。我已解决了阻止采用机构将原始属性保留在新节点中的问题。它将在1.7.3中可
这是我的密码 我想替换字体标签,并把span标签。在这将取代第一个字体标签但不是第二个标签