问题：

Jsoup在两个标记之间获取html

廖弘伟

2023-03-14

在像这样的网站上http://wikitravel.org/en/San_Francisco，诸如“Districts”、“Understand”、“Get in”等部分实际上并不包含HTML中的整个部分。节实际上只是标题中的跨类。正因为如此，我们不能简单地通过选择id来获取wiki文档的某些部分。

但是，是否可以收集两个标记之间的所有html？比如说我想要“四处走动”部分。我该如何发出一个选择器，在

<h2><span class="editsection">[<a href="/wiki/en/index.php?title=San_Francisco&amp;action=edit&amp;section=15" title="Edit section: Get around">edit</a>]</span> <span class="mw-headline" id="Get_around">Get around</span></h2>

和

<h2><span class="editsection">[<a href="/wiki/en/index.php?title=San_Francisco&amp;action=edit&amp;section=22" title="Edit section: See">edit</a>][<a href="#See" title="click to add a see listing" onclick="addListing(this, '22', 'see', 'San_Francisco');">add listing</a>]</span> <span class="mw-headline" id="See">See</span></h2>

夹谷星纬

2023-03-14

哎哟这种HTML不太容易使用。我想你可能是在刮东西，所以我知道有时候这是我们要处理的事情。你给这个jsoup加了标签，所以我要试试看。通常情况下，没有选择器可以处理这样的非结构化HTML。您可以做的是选择第一个h2的所有下一个同级，然后删除第二个h2的所有下一个同级。为了增加痛苦，我们只能通过其文本内容来识别节标题，因此我们需要使用：contains选择器。这样地：

Document doc = Jsoup.connect("http://wikitravel.org/en/San_Francisco").get();
//select all "next siblings" of the "Get around" h2
Elements section = doc.select("h2:contains(Get around) ~ *");
//select all "next siblings" of the "See" h2 and remove them
section.select("h2:contains(See) ~ *").remove();
//remove the second h2
section.select("h2").remove();
//section now contains the elements between "Get around" and "See"
String sectionHtml = section.html();

在对jQuery执行相同操作后，以下是一些Firebug输出：第一个选择器返回一个包含以下元素的Elements对象：

[h3，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p拇指，p，p，p，p，p，p，ul、第三，第四，第四，第三，第二，第三，第三，第三，第三，第三，第四，第四，第四，第四，第三，第四，第三，第三，第三，第三，第三，第三，第三，第二，第三，第三，第三，第二，拇指拇指拇指拇指拇指，第四，第，第四，第三，第，第三，第三，第二，第二，拇指，第三，拇指拇指，第二，第三，第二，第二，拇指，第三，第二，拇指，第二，第三，第二，拇指，第二，拇指，第三，第三，第三，第二，第二，拇指拇指，第三，第二，第二，第三，第二，第三，第三，第三，第三，第二，第二，第二，第三，拇指拇指，第三，第三，第三，第二，第二，第二，第二保险商实验室，保险商实验室，保险商实验室，保险商实验室，保险商实验室，保险商实验室，ul，ul，ul，ul，ul，ul，ul，ul，ul，ul，ul，ul，ul，h2，p，p，p，p，ul，ul，ul，ul，ul，ul，ul，ul，ul，ul，ul，ul，ul

其中第一个h3表示导航，最后一个p包含一个

[h3， p， p， p， p， h3， p， p， p， h3，div.thumb，div.thumb， p， ul， p， p， p， p， p， p，div.thumb， ul， ul，div.thumb， ul， ul， p， ul， ul， h3， p， p， p， h3， p， p， p， h3， p， p， p， p， p， p， h2]

其中第一个h3仍然表示“导航”，最后一个h2表示您引用的“查看”。选择（“h2”）和删除导致：

[h3，p，p，p，p，h3，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，p，ul，ul，ul，ul，ul，p，ul，ul，h3，p，p，p，p，p，p，p，p，p，p，p]

其中包含“绕过”和“查看”之间的所有元素。

Jsoup在两个标记之间获取html

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档