当前位置: 首页 > 知识库问答 >
问题:

Jsoup从页面获取所有链接

南宫胡媚
2023-03-14
Document doc = Jsoup.connect(url)
    .timeout(TIMEOUT * 1000)
    .get();
Elements elts = doc.getElementsByTag("a");
<table>
  <tr><td><a href="www.example.com"></a></td></tr>
</table>

我的代码不会获取这样的链接。使用doc.select也没有帮助。我的问题是,如何从页面中获得所有链接?

编辑:我想我知道问题出在哪里了。我遇到麻烦的页面写得很糟糕,HTML验证器抛出了大量的错误。这会引起问题吗?

共有1个答案

苏晓博
2023-03-14

一般说来,Jsoup可以处理大多数糟糕的HTML。在JSoup使用HTML时转储HTML(您可以简单地输出doc.tostring())。

提示:使用select()而不是getElementsByx(),它更快更灵活。

元素elts=doc.select(“a”);(编辑)

 类似资料:
  • 我们会很感激你的帮助。

  • 我正在使用jsoup库,今天我遇到了一个问题。我必须刮取DuckDuckGo并为每个页面获取查询结果的所有标题,但使用 我只得到关于第一页的结果。我怎样才能继续下一页?

  • 问题内容: 我有以下代码,用于使用JSoup在Java中解析HTML。 问题是我只能检索首页搜索结果链接。我应该怎么做才能从Google搜索结果的其余页面获得链接。 问题答案: 如果要从第二页获得结果,请添加到URL。对于第三页使用,依此类推。

  • 这里是表的一部分: 我需要从红色元素中获取url: 我决定使用jsoup库,下面是我尝试做的: 但是这样我就可以得到这个元素和所有的链接。我认为获取所有网址的列表并使用“日期”找到需要的东西不是最聪明的事情。那么,有人能给我一些建议吗,我该如何处理这项任务?

  • 我试图在谷歌中键入,并在记事本文件中获取结果的所有标题文本。我想得到所有页面上的所有可用链接,直到搜索的最后一页。但只有第一页的链接,我得到。当我调试并运行时,它可以工作大约10页。帮我做这件事。 JAVA代码: