当前位置: 首页 > 知识库问答 >
问题:

无法使用JSoup获取页面的完整内容

詹杰
2023-03-14

我正在尝试用JSOUP从以下页面获取内容:

Jsoup.connect(url).userAgent(USER_AGENT).timeout(timeoutInMs).data("limit","all").get().outerHtml();
USER_AGENT = "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/33.0.1750.146 Safari/537.36";

共有1个答案

云炜
2023-03-14

尝试在htmlunit中加载您的网页,它确实执行javascript(您可以在他们的文档中了解如何这样做)--它允许您访问网页DOM。

在查看页面时,您还可以在浏览器中启动开发人员工具,查看它发出了多少http请求,以及在哪里--如果它在单独的请求中加载了额外的产品,那么肯定需要编写一些脚本。

 类似资料:
  • 我正在刮网页使用JSoup库通过选择类属性,其中包含"nav"字符串。 这是获取网站超文本标记语言的代码: 正如您所看到的,id=“varPreviewMenu”的ul元素包含Jsoup检索到的HTML不包含的li元素。 我怎样才能得到那些元素?

  • Jsoup库未解析给定URL的完整html。URL的原始html中缺少一些分区。 有趣的事情:http://facebook.com/search.php?init=s:email&q=somebody@gmail.com&type=users 如果您在jsoup的官方站点http://try.jsoup.org/中给出了上面提到的url,它通过提取正确地显示了url的确切html,但是在使用js

  • 我是新来的和学习它我想从Imdb站点/特定的电影链接提取评级,并发现我将能够从div与class=,因此我写了以下内容代码: 很奇怪,我没有得到任何数据,因为我能够在几周前得到评级数据。是div与class=存在于页面/url上。

  • 本文向大家介绍PHP获取当前页面完整URL的方法,包括了PHP获取当前页面完整URL的方法的使用技巧和注意事项,需要的朋友参考一下 一、利用javascript实现: top.location.href 顶级窗口的地址 this.location.href 当前窗口的地址 二、利用PHP实现 http://localhost/PHP/XX.php?id=5 //获取域名或主机地址 //获取网页地址

  • 问题内容: 我想实现一个Java方法,该方法以URL作为输入并将整个网页(包括CSS,图像,JS(所有相关资源))存储在磁盘上。我已经使用Jsoup html解析器来获取html页面。现在,我想实现的唯一选择是使用jsoup获取页面,现在解析html内容并将相对路径转换为绝对路径,然后再次请求获取javascript,图像等并将其保存在磁盘上。我还阅读了有关HTML清洁器,htmlunit解析器的

  • 我想实现一个java方法,它将URL作为输入,并将包括css、图像、js(所有相关资源)在内的整个网页存储在我的磁盘上。我已经使用Jsoup html解析器来获取html页面。现在,我想实现的唯一选项是使用jsoup获取页面,现在解析html内容,将相对路径转换为绝对路径,然后发出另一个获取javascript、图像等的请求。并将它们保存在磁盘上。我也读过html cleaner和htmlunit