当前位置: 首页 > 知识库问答 >
问题:

html - 爬虫时网页源代码和页面内容不一致,和F12中的ELEMENT也不一致,怎么办?

景信瑞
2023-10-16

在爬取58同城工作页面的申请人数和浏览人数时,网页源代码总是显示0人,但页面数据在实时更新,更新的内容和F12中的elements内容是一致的,请问这种情况应该如何爬到申请和浏览人数?
网页地址:https://bj.58.com/zpyiyuanyiliao/27988291906488x.shtml?psid=1...
网页页面:
cfd50aba7a3305d1902a06d586c7dda.png
网页源代码:
d87aeb51f4359863a51301da5e4a115.png

共有4个答案

欧阳俊捷
2023-10-16

https://statisticszp.58.com/position/totalcount/?infoId=27988...

请求这个地址:

{  deliveryCount: 1141,  commentCount: 0,  infoCount: 4,  resumeReadPercent: 0,  referUrl: "",  nextUrl: "null"}
邓德本
2023-10-16

查看网页源代码 只是最初的内容(最初返回的Doc)
后边都是<sricpt>标签引入的js改的
比较简单的方法是用selenium 或者 puppeteer 或者 tampermonkey(具体用啥得看你现在会啥了),就是稍微慢点
分析请求接口估计是非常难(得对前端和反爬非常了解)

杜苏燕
2023-10-16

加个等待时间就可以了。或者你干脆分析接口不得了。

徐俊人
2023-10-16

数据是由 JavaScript 执行后填入的。
配合使用 selenium 或者 puppeteer 等无头浏览器,等 JS 执行完毕再获取数据就行了。

 类似资料:
  • 尝试换了 3 种服务器,清除缓存,无痕模式都试了也没用。

  • 如图,在爬人民网领导留言板数据时,这里每条留言都有一个超链接可以转到留言详情页,但在开发者工具中却找不到这个链接在哪里,查找tag_name为a的内容也没有找到,该怎么定位和提取超链接,求好心人帮助 网页链接为:https://liuyan.people.com.cn/threads/list?fid=3666 如图:

  • 本文向大家介绍页面的编码和被请求的资源编码不一致时如何处理?相关面试题,主要包含被问及页面的编码和被请求的资源编码不一致时如何处理?时的应答技巧和注意事项,需要的朋友参考一下 get方法 用encodeURIComponent(URIstring) 进行编码处理 post方法 直接丢给服务器自己处理 无须进行编码处理

  • 本文向大家介绍基于C#实现网络爬虫 C#抓取网页Html源码,包括了基于C#实现网络爬虫 C#抓取网页Html源码的使用技巧和注意事项,需要的朋友参考一下 最近刚完成一个简单的网络爬虫,开始的时候很迷茫,不知道如何入手,后来发现了很多的资料,不过真正能达到我需要,有用的资料--代码很难找。所以我想发这篇文章让一些要做这个功能的朋友少走一些弯路。 首先是抓取Html源码,并选择<ul class="

  • 我对Java还很陌生,现在我正在玩GUI。我现在有了一个-我们称之为-带有一些内容(文本、图像等)。所以我想做的是创建几个这样的不同内容的“页面”,并且能够在我的程序内在这些页面之间切换。 所以我的问题是,做这件事最好的方法是什么?假设我想用不同的图像和文本创建一个,我应该看什么来实现这一点呢? 我希望这多少是可以理解的。我只需要被推到正确的方向,这样我就知道该挖掘什么了。

  • 我对Java很陌生,现在我正在玩图形用户界面。我现在有一个-让我们称之为-带有一些内容(文本、图像等)。所以我想做的是创建几个具有不同内容的这样的“页面”,并能够在我的程序中在这些页面之间切换。 所以我的问题是,最好的方法是什么?假设我想创建一个包含不同图像和文本的< code>page2,我应该查看哪些内容才能实现? 我希望这在某种程度上是可以理解的。我只需要被推向正确的方向,这样我就知道要深入