当前位置: 首页 > 编程笔记 >

Python使用scrapy采集时伪装成HTTP/1.1的方法

彭高畅
2023-03-14
本文向大家介绍Python使用scrapy采集时伪装成HTTP/1.1的方法,包括了Python使用scrapy采集时伪装成HTTP/1.1的方法的使用技巧和注意事项,需要的朋友参考一下

本文实例讲述了Python使用scrapy采集时伪装成HTTP/1.1的方法。分享给大家供大家参考。具体如下:

添加下面的代码到 settings.py 文件

DOWNLOADER_HTTPCLIENTFACTORY = 'myproject.downloader.HTTPClientFactory'

保存以下代码到单独的.py文件
from scrapy.core.downloader.webclient import ScrapyHTTPClientFactory, ScrapyHTTPPageGetter

class PageGetter(ScrapyHTTPPageGetter):

    def sendCommand(self, command, path):

        self.transport.write('%s %s HTTP/1.1\r\n' % (command, path))

class HTTPClientFactory(ScrapyHTTPClientFactory):

     protocol = PageGetter

希望本文所述对大家的Python程序设计有所帮助。

 类似资料:
  • 问题内容: 我在Windows Vista 64位上使用Python.org版本2.7 64位。我一直在测试以下Scrapy代码以递归方式Scrapy所有页面,该页面用于足球统计数据: 该代码正在执行,没有任何错误,但是在Scrapy的4623个页面中,有217个的HTTP响应代码为200,第2个的代码为302,第4404个的代码为403。任何人都可以在代码中立即看到任何关于为什么会这样的明显信息

  • 本文向大家介绍讲解Python的Scrapy爬虫框架使用代理进行采集的方法,包括了讲解Python的Scrapy爬虫框架使用代理进行采集的方法的使用技巧和注意事项,需要的朋友参考一下 1.在Scrapy工程下新建“middlewares.py” 2.在项目配置文件里(./project_name/settings.py)添加 只要两步,现在请求就是通过代理的了。测试一下^_^ 3.使用随机user

  • 本文向大家介绍Python使用scrapy采集数据时为每个请求随机分配user-agent的方法,包括了Python使用scrapy采集数据时为每个请求随机分配user-agent的方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了Python使用scrapy采集数据时为每个请求随机分配user-agent的方法。分享给大家供大家参考。具体分析如下: 通过这个方法可以每次请求更换不同的u

  • 本文向大家介绍Python使用scrapy采集数据过程中放回下载过大页面的方法,包括了Python使用scrapy采集数据过程中放回下载过大页面的方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了Python使用scrapy采集数据过程中放回下载过大页面的方法。分享给大家供大家参考。具体分析如下: 添加以下代码到settings.py,myproject为你的项目名称 自定义限制下载过大

  • 1.1.1 Python环境搭建 Python可应用于多平台包括Windows、 Linux/Unix 和 Mac OS。 Python下载 Python最新源码,二进制文档,新闻资讯等可以在Python的官网查看到: Python官网:http://www.python.org/ 你可以在以下链接中下载 Python 的文档,你可以下载 HTML、PDF 和 PostScript 等格式的文档。

  • 本文向大家介绍win10系统中安装scrapy-1.1,包括了win10系统中安装scrapy-1.1的使用技巧和注意事项,需要的朋友参考一下 0.环境说明 win10 64bit,电脑也是64bit的处理器,电脑装有vs2010 64bit,但是为了保险起见,只试验了32位的安装,等有时间了,再试下64位的安装。如无特殊说明,一切操作都是在windows命令行下执行的。电脑也需要联网,因为pip