当前位置: 首页 > 知识库问答 >
问题:

有没有专业搞python爬虫的,对于动态网页怎么爬取,可以私信我,有偿,有没有高效地方法?

端木乐语
2023-07-16

最近在学习爬虫,遇到一个动态页面内容的网页,我虽然有办法将它转为html代码,但是效率实在可怜。求一个专业的大神,有偿支持我。

共有1个答案

沈琛
2023-07-16

最近看到了一个工具,你可以试试:https://sourcegraph.com/github.com/ruanyf/weekly/-/blob/docs/...

另外,对于动态网页,可以看看能不能找到 API。
 类似资料:
  • 本文向大家介绍Python使用爬虫爬取静态网页图片的方法详解,包括了Python使用爬虫爬取静态网页图片的方法详解的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了Python使用爬虫爬取静态网页图片的方法。分享给大家供大家参考,具体如下: 爬虫理论基础 其实爬虫没有大家想象的那么复杂,有时候也就是几行代码的事儿,千万不要把自己吓倒了。这篇就清晰地讲解一下利用Python爬虫的理论基础。 首

  • 在爬取人民网领导留言板数据时,在留言详情页面按照xpath提取留言时间的信息,但是有的留言可以提取出时间,有的留言提取出来是空,看起来非常随机,不明白这是为什么...当提取时间内容为空时,反复提取十几次,有时候是三十几次,又可以提取出来,不知道这是为什么?应该如何解决呢 此外不知道大家还有没有什么可以提高爬取速度的修改建议,或者可以实现爬取一部分存储一部分,中断后可以继续爬取不用从头再来的修改建议

  • 在任何语言中,都会规定某些对象(属性、方法、函数、类等)只能够在某个范围内访问,出了这个范围就不能访问了。这是“公”、“私”之分。此外,还会专门为某些特殊的东西指定一些特殊表示,比如类的名字就不能用class,def等,这就是保留字。除了保留字,python中还为类的名字做了某些特殊准备,就是“专有”的范畴。 私有函数 在某些时候,会看到有一种方法命名比较特别,是以“__”双划线开头的,将这类命名

  • 不能将这些文件重新转换为另一种格式(XLS,CSV),因为整个过程需要自动化,而且其中一些文件有多张表或超过了为XLS文件分配的行数。 我也考虑过编写一个脚本,只使用底层数据“重新创建”excel文件,但这并不理想,因为有些文件需要保留格式。 我可以从Java调用任何语言来读取大型XLSX文件而不会出现内存问题吗?

  • 本文向大家介绍python动态网页批量爬取,包括了python动态网页批量爬取的使用技巧和注意事项,需要的朋友参考一下 四六级成绩查询网站我所知道的有两个:学信网(http://www.chsi.com.cn/cet/)和99宿舍(http://cet.99sushe.com/),这两个网站采用的都是动态网页。我使用的是学信网,好了,网站截图如下:                    网站的代码

  • https://www.pexels.com/zh-cn/search/%E7%8C%AB%E5%92%AA/ URL解码后的: https://www.pexels.com/zh-cn/search/猫咪/ 进入页面, 向下滚动页面会触发翻页请求(Ajax请求). 然后, 复制Ajax请求的参数, 放到地址栏或者postman请求, 后端返回 {"error_messages":["Bad AP