当前位置：首页 > 编程笔记 >

Python使用scrapy采集时伪装成HTTP/1.1的方法

彭高畅

2023-03-14

本文向大家介绍Python使用scrapy采集时伪装成HTTP/1.1的方法，包括了Python使用scrapy采集时伪装成HTTP/1.1的方法的使用技巧和注意事项，需要的朋友参考一下

本文实例讲述了Python使用scrapy采集时伪装成HTTP/1.1的方法。分享给大家供大家参考。具体如下：

添加下面的代码到 settings.py 文件

DOWNLOADER_HTTPCLIENTFACTORY = 'myproject.downloader.HTTPClientFactory'

保存以下代码到单独的.py文件

from scrapy.core.downloader.webclient import ScrapyHTTPClientFactory, ScrapyHTTPPageGetter

class PageGetter(ScrapyHTTPPageGetter):

    def sendCommand(self, command, path):

        self.transport.write('%s %s HTTP/1.1\r\n' % (command, path))

class HTTPClientFactory(ScrapyHTTPClientFactory):

     protocol = PageGetter

希望本文所述对大家的Python程序设计有所帮助。

类似资料：

使用Python Scrapy时的HTTP 403响应

问题内容：我在Windows Vista 64位上使用Python.org版本2.7 64位。我一直在测试以下Scrapy代码以递归方式Scrapy所有页面，该页面用于足球统计数据：该代码正在执行，没有任何错误，但是在Scrapy的4623个页面中，有217个的HTTP响应代码为200，第2个的代码为302，第4404个的代码为403。任何人都可以在代码中立即看到任何关于为什么会这样的明显信息
讲解Python的Scrapy爬虫框架使用代理进行采集的方法

本文向大家介绍讲解Python的Scrapy爬虫框架使用代理进行采集的方法，包括了讲解Python的Scrapy爬虫框架使用代理进行采集的方法的使用技巧和注意事项，需要的朋友参考一下 1.在Scrapy工程下新建“middlewares.py” 2.在项目配置文件里(./project_name/settings.py)添加只要两步，现在请求就是通过代理的了。测试一下^_^ 3.使用随机user
Python使用scrapy采集数据时为每个请求随机分配user-agent的方法

本文向大家介绍Python使用scrapy采集数据时为每个请求随机分配user-agent的方法，包括了Python使用scrapy采集数据时为每个请求随机分配user-agent的方法的使用技巧和注意事项，需要的朋友参考一下本文实例讲述了Python使用scrapy采集数据时为每个请求随机分配user-agent的方法。分享给大家供大家参考。具体分析如下：通过这个方法可以每次请求更换不同的u
Python使用scrapy采集数据过程中放回下载过大页面的方法

本文向大家介绍Python使用scrapy采集数据过程中放回下载过大页面的方法，包括了Python使用scrapy采集数据过程中放回下载过大页面的方法的使用技巧和注意事项，需要的朋友参考一下本文实例讲述了Python使用scrapy采集数据过程中放回下载过大页面的方法。分享给大家供大家参考。具体分析如下：添加以下代码到settings.py，myproject为你的项目名称自定义限制下载过大
1.1 Python安装和使用

1.1.1 Python环境搭建 Python可应用于多平台包括Windows、 Linux/Unix 和 Mac OS。 Python下载 Python最新源码，二进制文档，新闻资讯等可以在Python的官网查看到： Python官网：http://www.python.org/ 你可以在以下链接中下载 Python 的文档，你可以下载 HTML、PDF 和 PostScript 等格式的文档。
win10系统中安装scrapy-1.1

本文向大家介绍win10系统中安装scrapy-1.1，包括了win10系统中安装scrapy-1.1的使用技巧和注意事项，需要的朋友参考一下 0.环境说明 win10 64bit，电脑也是64bit的处理器，电脑装有vs2010 64bit，但是为了保险起见，只试验了32位的安装，等有时间了，再试下64位的安装。如无特殊说明，一切操作都是在windows命令行下执行的。电脑也需要联网，因为pip

Python使用scrapy采集时伪装成HTTP/1.1的方法

相关阅读

相关文章

相关问答

相关工具

相关文档