我正试图通过jsoup从hardens.com获得所有餐馆的评论,但我有一个问题。默认情况下,在每个餐厅,你可以看到3个评论,也出现在页面源。如果有更多的评论可用,有一个“加载更多的评论”选项,允许我看到评论通过我的浏览器,但当我查看页面页面源,他们不在那里。没有一个链接的“加载更多的评论”,我不知道我应该如何得到那些评论。有什么想法吗?
看起来该站点正在通过AJAX请求加载其他评论。查看启用了XHR日志记录的控制台,我看到:
XHR finished loading: POST "http://www.hardens.com/more_reviews/load_more_reviews.php".
因此您需要弄清楚运行该请求的是什么JS代码,并自己运行相同的请求。它可能返回JSON或类似的机器可读的东西,因此您可能可以使用PHP脚本作为刮擦的更简单的替代方法。
问题内容: 我正在尝试使用jsoup解析HTML。这是我第一次使用jsoup,并且我也阅读了有关它的一些教程。以下是我要解析的HTML表- 如果您看到我的下表,则它现在有3个(我只是为了理解目的将其缩短为3个表行,但总的来说会更多)。现在,我想从我的下表中提取出它的对应信息,例如-我将提取其群集状态及其状态为关闭的所有主机名。 正如你可以看到下面的群集名称,我有两个主机名和其地位,但地位。 因此,
正如您在下面看到的集群名称,我有两个主机名和,其中状态为,但状态为。 因此,我将打印作为集群名,并打印作为主机名,因为它已关闭。使用JSOUP可以做到这一点吗? 到目前为止,我能够使用jsoup提取整个HTML表,但不确定如何提取集群名和主机名- 更新:- 表中可能有两个集群名称,如下所示- 现在,如果您看到上面,我有两个集群名称--一个是,另一个是,所以我想找到所有仅为集群名称关闭的计算机。
问题内容: 这是我必须从中提取值5390.85,5428.15,5376.15和5413.85的HTML源。我想使用jsoup做到这一点。但是我对jsoup比较陌生(今天我开始使用它)。那我该怎么办呢? 我已经使用jsoup提取了网站的内容。但是如何提取我需要的值?提前致谢 问题答案: 尝试这样的事情: 这是打印输出:-
我想解析出这个Nasa页面上的描述,页面底部的文字 我该怎么做?
主要内容:Jsoup 使用DOM解析HTML 语法,Jsoup 使用DOM解析HTML 说明,Jsoup 使用DOM解析HTML 示例以下示例将展示在将 HTML 字符串解析为 Document 对象后如何使用类似 DOM 的方法。 Jsoup 使用DOM解析HTML 语法 document : 文档对象代表 HTML DOM。 Jsoup : 解析给定 HTML 字符串的主类。 html : HTML 字符串。 sampleDiv : 元素对象表示由 id“sampleDiv”标识的 html
我需要的是在第二个中获取第二个 的文本,并对表中的每一组 标记执行此操作。