Document doc = Jsoup.connect(url)
.timeout(TIMEOUT * 1000)
.get();
Elements elts = doc.getElementsByTag("a");
<table>
<tr><td><a href="www.example.com"></a></td></tr>
</table>
我的代码不会获取这样的链接。使用doc.select也没有帮助。我的问题是,如何从页面中获得所有链接?
编辑:我想我知道问题出在哪里了。我遇到麻烦的页面写得很糟糕,HTML验证器抛出了大量的错误。这会引起问题吗?
一般说来,Jsoup可以处理大多数糟糕的HTML。在JSoup使用HTML时转储HTML(您可以简单地输出doc.tostring()
)。
提示:使用select()
而不是getElementsByx()
,它更快更灵活。
元素elts=doc.select(“a”);
(编辑)
我们会很感激你的帮助。
我正在使用jsoup库,今天我遇到了一个问题。我必须刮取DuckDuckGo并为每个页面获取查询结果的所有标题,但使用 我只得到关于第一页的结果。我怎样才能继续下一页?
问题内容: 我有以下代码,用于使用JSoup在Java中解析HTML。 问题是我只能检索首页搜索结果链接。我应该怎么做才能从Google搜索结果的其余页面获得链接。 问题答案: 如果要从第二页获得结果,请添加到URL。对于第三页使用,依此类推。
这里是表的一部分: 我需要从红色元素中获取url: 我决定使用jsoup库,下面是我尝试做的: 但是这样我就可以得到这个元素和所有的链接。我认为获取所有网址的列表并使用“日期”找到需要的东西不是最聪明的事情。那么,有人能给我一些建议吗,我该如何处理这项任务?
我试图在谷歌中键入,并在记事本文件中获取结果的所有标题文本。我想得到所有页面上的所有可用链接,直到搜索的最后一页。但只有第一页的链接,我得到。当我调试并运行时,它可以工作大约10页。帮我做这件事。 JAVA代码: