当前位置：首页 > 编程笔记 >

基于python 爬虫爬到含空格的url的处理方法

云隐水

2023-03-14

本文向大家介绍基于python 爬虫爬到含空格的url的处理方法，包括了基于python 爬虫爬到含空格的url的处理方法的使用技巧和注意事项，需要的朋友参考一下

道友问我的一个问题，之前确实没遇见过，在此记录一下。

问题描述

在某网站主页提取url进行迭代，爬虫请求主页时没有问题，返回正常，但是在访问在主页提取到的url时出现了400状态码(400 Bad Request)。

结论

先贴出结论来，如果url里有空格的话，要把空格替换成%20，也就是url编码，否则就会出现400。

解决过程

首先百度了一下400状态码什么意思：

400页面是当用户在打开网页时，返回给用户界面带有400提示符的页面。其含义是你访问的页面域名不存在或者请求错误。

主要有两种形式：

1、bad request意思是“错误的请求”；

2、invalid hostname意思是”不存在的域名”。

所以说问题应该是出在了url上，我怀疑是他的url提取逻辑有问题，于是让他把url打印一下看看，他说看不出什么问题。

然后我就把他代码要了过来，自己调调试试，发现前几个子url是访问正常的，但是其中一个出现了400，那个url如下：

http://www.qichacha.com/company_getinfos?unique=4d5ad1bc15ddc4ad9873e5b0ff4f93d3&companyname=意大利C.D.VIDEO S.P.A.深圳代表处&tab=base

下面是一个访问正常的url：

http://www.qichacha.com/company_getinfos?unique=f6aa78d2e9f4b0bc98103785f96c1353&companyname=深圳市联得自动化装备股份有限公司&tab=base

我首先把这个url复制到浏览器，发现可以正常访问，然后就留神了一下浏览器上url的变化，发现空格变成了%20，在代码里把url中的空格都替换成%20后，

程序访问也正常了。

问题解决。

启示

以后做爬虫，对于不可预测的不规律的请求，在发请求之前先把url进行url编码，以免出现这种错误。

这篇基于python 爬虫爬到含空格的url的处理方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持小牛知识库。

类似资料：

基于python爬虫数据处理(详解)

本文向大家介绍基于python爬虫数据处理(详解)，包括了基于python爬虫数据处理(详解)的使用技巧和注意事项，需要的朋友参考一下一、首先理解下面几个函数设置变量 length()函数 char_length() replace() 函数 max() 函数 1.1、设置变量 set @变量名=值 1.2 、length()函数 char_length()函数区别 1.3、 replace(
零基础写python爬虫之爬虫的定义及URL构成

本文向大家介绍零基础写python爬虫之爬虫的定义及URL构成，包括了零基础写python爬虫之爬虫的定义及URL构成的使用技巧和注意事项，需要的朋友参考一下一、网络爬虫的定义网络爬虫，即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面（通常是首页）开始，读取网页的内容
python爬虫 urllib模块url编码处理详解

本文向大家介绍python爬虫 urllib模块url编码处理详解，包括了python爬虫 urllib模块url编码处理详解的使用技巧和注意事项，需要的朋友参考一下案例：爬取使用搜狗根据指定词条搜索到的页面数据（例如爬取词条为‘周杰伦'的页面数据）编码错误【注意】上述代码中url存在非ascii编码的数据，则该url无效。如果对其发起请求，则会报如下错误： url的特性：url不可以存在非
关于爬虫和反爬虫的简略方案分享

本文向大家介绍关于爬虫和反爬虫的简略方案分享，包括了关于爬虫和反爬虫的简略方案分享的使用技巧和注意事项，需要的朋友参考一下前言爬虫和反爬虫日益成为每家公司的标配系统。爬虫在情报获取、虚假流量、动态定价、恶意攻击、薅羊毛等方面都能起到很关键的作用，所以每家公司都或多或少的需要开发一些爬虫程序，业界在这方面的成熟的方案也非常多。有矛就有盾，每家公司也相应的需要反爬虫系统来达到数据保护、系统稳定
python爬虫的工作原理

本文向大家介绍python爬虫的工作原理，包括了python爬虫的工作原理的使用技巧和注意事项，需要的朋友参考一下 1.爬虫的工作原理网络爬虫，即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址
Python爬虫：常用的爬虫技巧总结

python应用最多的场景还是web快速开发、爬虫、自动化运维：写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。爬虫在开发过程中也有很多复用的过程，这里总结一下，以后也能省些事情。

相关阅读

python爬虫的工作原理如何基于Python爬虫爬取美团酒店信息详解Python爬虫的基本写法 python爬虫之爬取百度音乐的实现方法基于C#实现网页爬虫

相关文章

[实例]爬虫下载小说 [实例]爬虫抓取网页实战-Swing实现简单爬虫 Python爬虫实战：王者荣耀全套皮肤采集教你用Python爬取表情包

相关问答

爬虫python ，为什么偶尔出现list out of range ，爬不出数据的情况？python - 爬虫requests.get无限刷新加载，呈现卡死特征，如何处理？Scrapy爬虫提取URL，但错过了一半回调前端 - 爬虫爬取到标签内容有时为空有时正常，请问怎么解决？用爬虫找出哪个div包含“主要内容”

相关工具

神箭手云爬虫百度云分享爬虫基于BeeFramework的表格控件基于jfinal2.2的权限管理系统基于cocos2d-x的对对碰

相关文档

Python 原生爬虫教程爬虫课件 Python 爬虫学习系列教程 WebMagic 爬虫框架中文文档宇润爬虫框架 Yurun Crawler 帮助文档