JSOUP为HTML添加额外的编码内容

马博学

2023-03-14

问题内容：

实际上，JSOUP在我的jSOUP解析器中向HTML添加了一些额外的编码值。

String url = "http://iqtestsites.adtech.de/pictelatest/custombkgd/StylelistDevil.html";
System.out.println("Fetching %s..."+url);

Document doc = Jsoup.connect(url).get();
//System.out.println(doc.html());

Document.OutputSettings settings = doc.outputSettings();

settings.prettyPrint(false);
settings.escapeMode(Entities.EscapeMode.base);
settings.charset("ASCII");
String html = doc.html();
System.out.println(html);

但是由于某种原因找不到Entities类，并给出了错误。我包含的库是

import org.jsoup.Jsoup;
import org.jsoup.helper.Validate;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

原始的HTML是

<!DOCTYPE html>
<html xmlns:og="http://opengraphprotocol.org/schema/" xmlns:fb="http://www.facebook.com/2008/fbml" xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en" class="SAF" id="global-header-light">
<head>

</head>
<body>


<div style="background-image: url(http://aka-cdn-ns.adtech.de/rm/ads/23274/HPWomenLOFT_1381687318.jpg);background-repeat: no-repeat;-webkit-background-size: 1001px 2059px; height: 2059px; width: 1001px; text-align: center; margin: 0 auto;">

<div style="height:2058px; padding-left:0px; padding-top:36px;">


<iframe style="height:90px; width:728px;" />



</div>
</div>

</body>
</html>

在doc.html()从JSOUP给出了这样的：

<!DOCTYPE html>
<html xmlns:og="http://opengraphprotocol.org/schema/" xmlns:fb="http://www.facebook.com/2008/fbml" xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en" class="SAF" id="global-header-light">
 <head> 
  <style>

</style> 
 </head> 
 <body> 
  <div style="background-image: url(aol.jpeg); background-repeat: no-repeat;-webkit-background-size:90720;height:720; width:90; text-align: center; margin: 0 auto;"> 
   <div style="height:450; width:100; padding-left:681px; padding-top:200px;"> 
    <iframe style="height:1050px; width:300px;"></iframe> &lt;/div&gt; &lt;/div&gt; &lt;/body&gt; &lt;/html&gt;
   </div>
  </div>
 </body>
</html>

iframe元素已添加一些已编码的内容。

请帮忙。

感谢Swaraj

问题答案：

实际上，jsoup不会添加编码的东西。Jsoup只是添加了似乎缺少的结束标记。让我解释。

首先，jsoup尝试格式化html。在您的情况下，这意味着它将添加缺少的结束标记。例

Document doc = Jsoup.parse("<div>test<span>test");
System.out.println(doc.html());

输出：

<html>
 <head></head>
 <body>
  <div>
   test
   <span>test</span>
  </div>
 </body>
</html>

如果您检查已编码的内容，您将意识到它们正在关闭标签。

&lt;/div&gt;  = </div> 
&lt;/div&gt;  = </div>
&lt;/body&gt; = </body>

如果您转到该站点并按Ctrl+
U（使用chrome），则将看到jsoup将解析的内容。Chrome会将颜色赋予其可以识别的有效html标签。由于某种奇怪的原因，它无法识别底部的标签（与转义字符显示的标签相同）。出于同样的原因，jsoup的那些结束标记也存在问题。它不会将它们视为结束标签，而是将其视为文本，因此它会将它们转义，然后通过添加这些标签来规范化html，如我之前所述。

编辑我设法复制行为。

Document doc = Jsoup.parse("<iframe /><span>test</span>");
System.out.println(doc.html());

您可以看到完全相同的行为。问题在于自动关闭iframe。像这样解决问题

Document doc = Jsoup.parse("<iframe></iframe><span>test</span>");
System.out.println(doc.html());

编辑2 如果您只想接收html而无需构建文档对象，则可以执行此操作

Connection.Response html = Jsoup.connect("http://iqtestsites.adtech.de/pictelatest/custombkgd/StylelistDevil.html").execute();
System.out.println(html.body());

有了上述内容，您可以找到自动关闭的iframe，并将其替换为有效的表示形式（或将其完全删除）。然后，您可以使用解析该字符串。Jsoup.parse()
这将解决在iframe之后无法识别结束标记的问题，因为它将是有效的。

JSOUP为HTML添加额外的编码内容

相关阅读

相关文章

相关问答

相关工具

相关文档