当前位置: 首页 > 知识库问答 >
问题:

列出加载网页的所有媒体和文档文件,其中包含python请求

澹台庆
2023-03-14

我正在寻找一种通过请求模块列出所有加载文件的方法。就像chrome的Inspector网络选项卡一样,您可以看到该网页加载的各种文件。

问题是我要获取的文件(在这种情况下是. pdf文件)没有特定的选项卡,网页通过javascript和AJAX加载它我猜,因为即使在页面完全加载后,我也找不到一个具有指向. pdf文件或类似文件的链接的标签,所以每次我都应该转到Networks选项卡并重新加载页面并在加载的资源列表中找到文件。有没有办法捕获所有加载的文件并使用请求模块列出它们?

共有1个答案

晋鹤轩
2023-03-14

当浏览器加载一个超文本标记语言文件时,它会解释该文件的内容。它可能会发现有一个引用外部JavaScript URL的标签。然后浏览器将发出一个GET请求来检索该文件。当收到所述文件时,它会通过执行其中的代码来解释JavaScript文件。该代码可能包含AJAX代码,进而获取更多文件。或者超文本标记语言文件可能会引用带有标签的extern CSS文件或带有标签的图像文件。这些文件也将由浏览器加载,并且可以在您运行浏览器的检查器时看到。

相比之下,当您使用请求模块对特定URL执行get请求时,只会获取一个页面。没有逻辑来解释返回页面的内容并获取页面中引用的那些图像、样式表、JavaScript文件等。

但是,您可以使用Python来使用Selenium WebDriver之类的工具自动化浏览器,该工具可用于完全下载页面。

 类似资料:
  • 我有一个问题,我需要将文件附加到媒体库中的文档。 开箱即用Kentico似乎只允许在附件部分和相关文档上直接上传,您只能在网站上关联其他内容/文档。 我希望能够将文件作为相关文档或媒体库的附件附加。 我在网上找这个,但我什么也找不到。 我目前的计划是在“添加相关媒体文件”中添加一个自定义部分,但如果有更简单的方法,那就太好了。 为了澄清这一点,我需要能够将多个媒体文件添加到一个文档中。 当做

  • 问题内容: 这是与许多人相似的问题,但并不完全相同。我有一个文本文件,其中包含约40万行文本。每行本质上都是一个列表。例如看起来 我可以使用以下代码读取文本文件的每一行: 问题是每行都被读取为字符串。我想获取列表中的每个项目。所以我想我会做(针对每一行): 这几乎可行,但是我遇到了问题。在我的文本文件中,很多时候我在列表中都有一个字符串,其中有一个逗号(从上面我有’d and,e string’)

  • 本文向大家介绍如何分离django中的媒体、静态文件和网页,包括了如何分离django中的媒体、静态文件和网页的使用技巧和注意事项,需要的朋友参考一下 django项目中,占很大体积的是静态文件,媒体文件还有html代码,那我们该如何把它们分离出来以方便我们和服务器去管理和使用它们。 static 文件 static ,顾名思义就是静态文件,django自带了一个命令讲项目中所有的静态文件提取出来

  • 本文向大家介绍Python列出一个文件夹及其子目录的所有文件,包括了Python列出一个文件夹及其子目录的所有文件的使用技巧和注意事项,需要的朋友参考一下 python简介 Python是一种解释型、面向对象、动态数据类型的高级程序设计语言。 Python由Guido van Rossum于1989年底发明,第一个公开发行版发行于1991年。 像Perl语言一样, Python 源代码同样遵循 G

  • 问题内容: 我必须从网页上下载很多文档。它们是wmv文件,PDF,BMP等。当然,它们都具有指向它们的链接。因此,每次我必须RMC一个文件,选择“链接另存为”,然后保存,然后键入“所有文件”。是否可以在Python中执行此操作?我搜索了SO DB,人们回答了如何从网页获取链接的问题。我想下载实际文件。提前致谢。(这不是硬件问题:))。 问题答案: 这是如何从http://pypi.python.o

  • 目前,我正在使用MongoCollection 前: 但我不知道FindIterable是加载所有文档并循环,还是只是加载光标并在稍后循环时获取文档?