当前位置: 首页 > 面试题库 >

Jsoup链接提取

张卓
2023-03-14
问题内容

您好,我正在尝试从aol提取所有锚链接,但是它不起作用。相同的代码与yahoo bing一起使用。问题是什么问题

Document document5 = Jsoup.connect("www.aol.com").get();
Elements links5 = document5.select("a");

for (Element link5 : links5) {
    out.println(link5.attr("href"));
}

问题答案:

根据您对上一个问题的评论:

即使在即时通讯指定协议之后…仅google和aol无法正常工作,雅虎,必应和ask仍在使用…。我的项目是实现元搜索引擎....我能够从yahoo提取链接,bing和ask
…但是google和aol不能正常使用…这可能是原因。

他们阻止了您的请求,因为您扮演的机器人/窃贼可能违反了他们的服务条款。他们的网站经常被要求访问,他们不想不必要地将带宽浪费在实际上只需要响应的一小部分的机器人/抓取者身上。

使用其公共Web服务API而不是解析整个网站的HTML。对于Google,例如“
Google自定义搜索API
”。其他搜索引擎提供商也提供类似的Web服务。请注意,这些Web服务不会返回肿的HTML,而是紧凑的JSON或XML数据,使用JSON /
XML解析器更容易解析/提取。



 类似资料:
  • 我试图提取JSOUP中给定元素中的链接。这里我做了什么但它不起作用: 我正在尝试做的事情是获得所有的链接与文章类。我想,也许首先我必须选择section class=“row”,然后从article类派生链接,但我无法使其工作。

  • 本文向大家介绍Jsoup 提取URL和链接标题,包括了Jsoup 提取URL和链接标题的使用技巧和注意事项,需要的朋友参考一下 示例 Jsoup可用于轻松地从网页中提取所有链接。在这种情况下,我们可以使用Jsoup提取我们想要的特定链接,这里h3是页面标题中的链接。我们还可以获取链接的文本。 这给出以下输出: 这里发生了什么事: 首先,我们从指定的URL获取HTML文档。此代码还将请求的用户代理标

  • 在HTML文档中,我有以下标记 我正在使用JSoup,希望提取中包含的URL,该URL由标识。在阅读了下面的文章之后 > JSoup解析标记中的数据 我想出了这段代码 但这些都是印刷品 我尝试过其他的变化,但都没有成功。我要么什么也没打印出来,要么最后出现了空指针异常。 我不确定如何提取

  • 这里是表的一部分: 我需要从红色元素中获取url: 我决定使用jsoup库,下面是我尝试做的: 但是这样我就可以得到这个元素和所有的链接。我认为获取所有网址的列表并使用“日期”找到需要的东西不是最聪明的事情。那么,有人能给我一些建议吗,我该如何处理这项任务?

  • 我们会很感激你的帮助。

  • 我的代码不会获取这样的链接。使用doc.select也没有帮助。我的问题是,如何从页面中获得所有链接? 编辑:我想我知道问题出在哪里了。我遇到麻烦的页面写得很糟糕,HTML验证器抛出了大量的错误。这会引起问题吗?

  • 问题内容: 我正在使用Jsoup提取网页的URL。在这些URL的属性是相对的,如: 这是我的尝试: 这工作正常,但如果我使用 获得像这样的绝对URL ,它不起作用。如何获得绝对URL? 问题答案: 你需要。 您可以通过以下方式缩短选择: