Jsoup可用于轻松地从网页中提取所有链接。在这种情况下,我们可以使用Jsoup提取我们想要的特定链接,这里h3是页面标题中的链接。我们还可以获取链接的文本。
Document doc = Jsoup.connect("http://stackoverflow.com").userAgent("Mozilla").get(); for (Element e: doc.select("a.question-hyperlink")) { System.out.println(e.attr("abs:href")); System.out.println(e.text()); System.out.println(); }
这给出以下输出:
http://stackoverflow.com/questions/12920296/past-5-week-calculation-in-webi-bo-4-0 Past 5 week calculation in WEBI (BO 4.0)? http://stackoverflow.com/questions/36303701/how-to-get-information-about-the-visualized-elements-in-listview How to get information about the visualized elements in listview? [...]
这里发生了什么事:
首先,我们从指定的URL获取HTML文档。此代码还将请求的用户代理标头设置为“ Mozilla”,以便网站提供通常会提供给浏览器的页面。
然后,使用select(...)and for循环获取所有指向Stack Overflow问题的链接,在本例中,链接具有class question-hyperlink。
使用列印每个连结的文字,并使用列印连结的href 。在这种情况下,我们用于获取绝对URL,即。包括域和协议。.text()attr("abs:href")abs:
我试图提取JSOUP中给定元素中的链接。这里我做了什么但它不起作用: 我正在尝试做的事情是获得所有的链接与文章类。我想,也许首先我必须选择section class=“row”,然后从article类派生链接,但我无法使其工作。
在HTML文档中,我有以下标记 我正在使用JSoup,希望提取中包含的URL,该URL由标识。在阅读了下面的文章之后 > JSoup解析标记中的数据 我想出了这段代码 但这些都是印刷品 我尝试过其他的变化,但都没有成功。我要么什么也没打印出来,要么最后出现了空指针异常。 我不确定如何提取
问题内容: 我正在使用Jsoup提取网页的URL。在这些URL的属性是相对的,如: 这是我的尝试: 这工作正常,但如果我使用 获得像这样的绝对URL ,它不起作用。如何获得绝对URL? 问题答案: 你需要。 您可以通过以下方式缩短选择:
我们会很感激你的帮助。
线程“main”org.jsoup.HttpStatusException中出现异常:提取URL时出现HTTP错误。status=403,url=java Html解析器提取特定数据?在org.jsoup.helper.httpconnection$response.execute(httpconnection.java:590)在org.jsoup.helper.httpconnection$r