当前位置: 首页 > 面试题库 >

使用JSoup从Google搜索结果的所有页面检索所有链接

方昊阳
2023-03-14
问题内容

我有以下代码,用于使用JSoup在Java中解析HTML。

Document linksDoc = null; 
linksDoc = Jsoup.connect("http://www.google.com/search?q=jbutton").userAgent("Mozilla").get();
Elements titles = linksDoc.select("h3.r > a");

for(Element e: titles){
    System.out.println("text"+cnt+": " +e.attr("href"));
  }

问题是我只能检索首页搜索结果链接。我应该怎么做才能从Google搜索结果的其余页面获得链接。


问题答案:

&start=10如果要从第二页获得结果,请添加到URL。对于第三页使用&start=20,依此类推。

Document linksDoc = Jsoup.connect("http://www.google.com/search?q=jbutton&start=10")
        .userAgent("Mozilla").get();
//...


 类似资料:
  • 我正在使用jsoup库,今天我遇到了一个问题。我必须刮取DuckDuckGo并为每个页面获取查询结果的所有标题,但使用 我只得到关于第一页的结果。我怎样才能继续下一页?

  • 我试图在一个旧的海军网页上抓取产品的URL。然而,它只是给出了产品列表的一部分,而不是全部(例如,当超过8个URL时,只给出8个URL)。我希望有人能帮我找出问题所在。

  • 我的代码不会获取这样的链接。使用doc.select也没有帮助。我的问题是,如何从页面中获得所有链接? 编辑:我想我知道问题出在哪里了。我遇到麻烦的页面写得很糟糕,HTML验证器抛出了大量的错误。这会引起问题吗?

  • 我有三个索引,它们都共享一个特定的键值对。当我用api进行全面搜索时”http://localhost:9200/_search“使用请求正文 它只返回其中两个索引的结果。我尝试使用相同的请求正文,将url更改为仅在丢失的索引中搜索”http://localhost:9200/index_name/_search“这很管用。我有什么遗漏吗? 插入所有三个索引的代码遵循相同的过程,我使用elasti

  • 问题内容: 文件夹中的文档很少,我想检查该文件夹中的所有文档是否都已编制索引。为此,对于该文件夹中的每个文档名称,我想循环遍历ES中索引的文档并进行比较。所以我想检索所有文档。 有喜欢同一个问题的其他几个可能的重复[检索AElasticSearch)NEST查询所有记录,并在此处输入链接的描述,但他们没有帮助我的文档已经从那个时候改变了。(有什么关于扫描当前文档中) 我尝试使用。但是根据文档,将检