当前位置: 首页 > 面试题库 >

让Jsoup支持JavaScript动态生成的html

南门新荣
2023-03-14
问题内容

现在,我正在研究网络爬虫。这个应该解析一些特定的站点,并输出一个xml文件。至此,这没有问题。搜寻器有效,您可以通过cfg文件快速地对其进行自定义。我使用Jsoup解析HTML内容。

我刚刚添加了几个站点,并注意到通过JavaScript创建的HTML内容存在很大的问题。没有办法使Jsoup支持Javascript吗?或者至少获得我在浏览器中可以看到的完整HTML内容。

我已经尝试过HtmlUnit,但是这个做得不好。它没有给我提供我在浏览器中获得的内容。

真诚的

奥戈佛


问题答案:

Jsoup不支持javascript,并且不模拟浏览器。如果您打算执行Javascript,就不用管它了。以我的经验,HtmlUnit是一个无头的浏览器,它给了我最好的结果(总是谈论Java框架)。

在HtmlUnit中值得尝试的一件事是BrowserVersion在创建WebClient实例时更改(Chrome /
InternetEplorer / FireFox)。有些网站的反应方式不同, 有时 只是更改该值 可能 会给您带来预期的结果。



 类似资料:
  • 本文向大家介绍Java爬虫Jsoup+httpclient获取动态生成的数据,包括了Java爬虫Jsoup+httpclient获取动态生成的数据的使用技巧和注意事项,需要的朋友参考一下 Java爬虫Jsoup+httpclient获取动态生成的数据 前面我们详细讲了一下Jsoup发现这玩意其实也就那样,只要是可以访问到的静态资源页面都可以直接用他来获取你所需要的数据,详情情跳转-Jsoup爬虫详

  • 本文向大家介绍JavaScript让Textarea支持tab按键的方法,包括了JavaScript让Textarea支持tab按键的方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了JavaScript让Textarea支持tab按键的方法。分享给大家供大家参考。具体实现方法如下: 希望本文所述对大家的javascript程序设计有所帮助。

  • 问题内容: 如何将两个正则表达式模式构造为一个? 例如,我有一个长模式,一个小模式,我需要在长模式前面放一个小模式。 这行不通。当我连接字符串时,所有的斜杠都消失了。 问题答案: 您必须使用: 当我连接字符串时,所有的斜杠都消失了。 如果您的模式中有反斜杠以转义特殊的正则表达式字符(如),则必须在字符串中使用两个反斜杠(因为是字符串中的转义字符):与相同。 因此,您的模式必须变为:

  • 安装 protoc-gen-doc 简单遵循安装要求即可: https://github.com/estan/protoc-gen-doc 安装完成之后的protoc是2.5.0版本,无法处理proto3的文件。因此我们需要升级替换protoc为v3.0.0版本。 升级protoc 使用预编译版本 下载 请先在 protobuf 的 发布页面 中找到对应版本的 download ,然后下载对应版本

  • 我正在尝试为一栋建筑制作一个模拟电梯的GUI(实际上是为了测试线程/c扫描),但当生成电梯控制面板的按钮和每个楼层的按钮时,我有点卡住了。我考虑为每层楼生成一对新的按钮,并为每部电梯生成一个新的控制面板。此外,拥有不同数量的楼层也很困难。不管怎样,我的问题是,这样做最好的方式是什么?也许不必为每件事都生成新的按钮,只需使用一组按钮并更改每个楼层/电梯的操作?我这么问是因为我对GUI不太熟悉。谢谢你

  • 本文向大家介绍让JavaScript中setTimeout支持链式操作的方法,包括了让JavaScript中setTimeout支持链式操作的方法的使用技巧和注意事项,需要的朋友参考一下 修改很简单,通过参数判断,然后返回下promise对象 调用