在文件读写及字符操作时,我们经常会出现下面这几种错误:
这些错误一看就是编码问题, 本篇博文总结一下Python3文件读写及字符操作中的编码。
(1)ASCII编码
众所周知,计算机只能处理0和1,任何符号都转换为0和1的序列才能处理。计算机中8个位(bit)作为一个字节,所以1个字节能产生2的8次方个0和1的不同组合,也就是说1个字节做多能表示256种字符。ASCII编码就是用1个字节来存储字符,计算机最初是美国人发明的,他们的符号不多,所以还将8个0和1序列中的第一位固定为0,ASCII只能表示127个字符。
(2)GB2312编码
美国佬的符号不多,所以ASCII编码够用,但是其他国家就不行了,每个国家符号数量都不一样,就各自指定了自己的编码。例如我们中国就制定了GB2312编码。GB2312编码用2个字节表示一个字符。
(3)Unicode编码
每个国家都用自己的编码,编码一朵就容易乱套,也没法交流,所以需要一种编码把各个国家的编码都囊括进去,这就是Unicode编码的由来。所以,Unicode也被称为万国码。Unicode编码也用2个字节存储一个字符。
(4)utf-8编码
Unicode编码解决了编码不能通用的问题,但是却容易浪费内存,尤其是在存储英文的时候,例如一个字符“A”,ASCII编码只需要1个字节就够,但是Unicode编码必须要用2个字节。为了解决这一问题,就有了utf-8编码。 utf-8编码把存储英文依旧用一个字节,汉字就3个字节。特别是生僻的编程4-6字节,如果传输大量英文,utf-8作用就很明显了。
utf-8编码进行存储时有极大地优势,但是当读取到计算机内存时却不大合适,因为utf-8编码是变长的,不方便寻址和索引,所以在计算机内存中,还是转化为Unicode编码合适些。这就可以解释为什么每次读取文本时,要将编码转化为Unicode编码,而将内存中的字符写入文件存储时,要将编码转化为utf-8了。
在Python3中,文本总是为Unicode编码,在类型上为str类,也就是说Python编译器只会把Unicode编码下的二进制流显示为我们可识别的符号。二进制流在Python中也有一个专门的类用于表示这种二进制序列,那就是bytes(在Python中这个二进制序列显示为16进制,但本质还是二进制)。一个str在不同的编码下就可以转化为不同的bytes(二进制流),反之,要将bytes转化为可识别的str就必须用对应的编码,否则就会报错。
用人类语言类比一下:我们要表达“吃饭”这件事物(str),翻译为各个国家的文字后有各不相同的表示,中文表示为“吃饭”,英文表示为“eat”,这就是“吃饭”这个str在不同编码写的表示。但官方只认中文(Pythonstr只认Unicode编码),所以就必须把“eat”用英语(编码)的表示方式转化为中文的“吃饭”(Unicode编码),官方才会显示知道是吃饭这件事。
>>> s = '吃饭' >>> type(s) <class 'str'> >>> s1 = s.encode(encoding='utf-8') >>> type(s1) <class 'bytes'> >>> s1 b'\xe5\x90\x83\xe9\xa5\xad' >>> s2 = s.encode(encoding='gb2312') >>> type(s2) <class 'bytes'> >>> s2 b'\xb3\xd4\xb7\xb9' >>> s1.decode('utf-8') '吃饭' >>> s2.decode('gb2312') '吃饭'
在python 3 中字符是以Unicode的形式存储的,当然这里所说的存储是指存储在计算机内存当中,如果是存储在硬盘里,Python 3的字符是以bytes形式存储,也就是说如果要将字符写入硬盘,就必须对字符进行encode。对上面这段话再解释一下,如果要将str写入文件,如果以‘w'模式写入,则要求写入的内容必须是str类型;如果以‘wb'形式写入,则要求写入的内容必须是bytes类型。文章开头出现的几种错误,就是因为写入模式与写入内容的数据类型不匹配造成的。
s1 = '你好' #如果是以‘w'的方式写入,写入前一定要进行encoding,否则会报错 with open('F:\\1.txt','w',encoding='utf-8') as f1: f1.write(s1) s2 = s1.encode("utf-8")#转换为bytes的形式 #这时候写入方式一定要是‘wb',且一定不能加encoding参数 with open('F:\\2.txt','wb') as f2: f2.write(s2)
有的人会问,我在系统里面用文本编辑器打开以bytes形式写入的2.txt文件,发现里面显示的是‘你好',而不是‘b'\xe4\xbd\xa0\xe5\xa5\xbd'',因为文本文档打开2.txt时,系统会用合适的编码将其显示为对应的符号,然后才给你看到。
网页编码和文件编码方法差不多,如下urlopen下载下来的网页read()且用decoding(‘utf-8')解码,那就必须以‘w'的方式写入文件。如果只是read()而不用encoding(‘utf-8')进行编码,一定要以‘wb'方式写入:
以‘w'方式写入时:
response= url_open('http://blog.csdn.net/gs_zhaoyang/article/details/13768925 ' ,timeout=5 )#自定义的一个网页下载函数 #此处以UTF-8方式进行解码,解码后的数据以unicode的方式存储在html中 html = response.read().decode('UTF-8') print(type(html))#输出结果:<class 'str'> #这时写入方式一定要加encoding,以encoding # 即UTF-8的方式对二进制数据进行编码才能写入 with open('F:\DownloadAppData\html.txt',"w" , encoding='UTF-8') as f: f.write(html)
以‘wb'方式写入:
response= url_open('http://blog.csdn.net/gs_zhaoyang/article/details/13768925 ' ,timeout=5 ) html = response.read()#此处不需要进行解码,下载下来 print(type(html))#输出结果:<class 'bytes'> with open('F:\DownloadAppData\html.txt',"wb" ) as f: f.write(html)
如果要在Python3中,对urlopen下载下来的网页进行字符操作(例如正则匹配、lxml提取),就必须decode成Unicode。
作者:奥辰
微信号:chb1137796095
Github:https://github.com/ChenHuabin321
欢迎加V交流,共同学习,共同进步!
以上就是详解Python中的编码问题(encoding与decode、str与bytes)的详细内容,更多关于python 编码的资料请关注小牛知识库其它相关文章!
本文向大家介绍详解Python解决抓取内容乱码问题(decode和encode解码),包括了详解Python解决抓取内容乱码问题(decode和encode解码)的使用技巧和注意事项,需要的朋友参考一下 一、乱码问题描述 经常在爬虫或者一些操作的时候,经常会出现中文乱码等问题,如下 原因是源网页编码和爬取下来后的编码格式不一致 二、利用encode与decode解决乱码问题 字符串在Python
本文向大家介绍详解Ruby语言中的注释用法与中文编码问题,包括了详解Ruby语言中的注释用法与中文编码问题的使用技巧和注意事项,需要的朋友参考一下 Ruby 注释 注释会对 Ruby 解释器隐藏一行,或者一行的一部分,或者若干行。您可以在行首使用字符( # ): 或者,注释可以跟着语句或表达式的同一行的后面: 您可以注释多行,如下所示: 下面是另一种形式。这种块注释会对解释器隐藏 =begin/=
本文向大家介绍Python中json格式数据的编码与解码方法详解,包括了Python中json格式数据的编码与解码方法详解的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了Python中json格式数据的编码与解码方法。分享给大家供大家参考,具体如下: python从2.6版本开始内置了json数据格式的处理方法。 1、json格式数据编码 在python中,json数据格式编码使用json
描述 (Description) 方法decode()使用为编码注册的编解码器对字符串进行解码。 它默认为默认字符串编码。 语法 (Syntax) Str.decode(encoding='UTF-8',errors='strict') 参数 (Parameters) encoding - 这是要使用的编码。 有关所有编码方案的列表,请访问: 标准编码。 errors - 可以设置不同的错误处理
本文向大家介绍详解SQL Server中的事务与锁问题,包括了详解SQL Server中的事务与锁问题的使用技巧和注意事项,需要的朋友参考一下 一 概述 在数据库方面,对于非DBA的程序员来说,事务与锁是一大难点,针对该难点,本篇文章试图采用图文的方式来与大家一起探讨。 “浅谈SQL Server 事务与锁”这个专题共分两篇,上篇主讲事务及事务一致性问题,并简略的提及一下锁的种类和锁的控制级别。
Base64编码将二进制数据转换为文本格式,通过通信通道传递,用户可以安全地处理文本。 Base64也称为Privacy enhanced Electronic mail (PEM) ,主要用于电子邮件加密过程。 Python包含一个名为BASE64的模块,它包括两个主要功能,如下所示 - base64.decode(input, output) - 它解码指定的输入值参数,并将解码的输出存储为对
本文向大家介绍JavaScript字符集编码与解码详谈,包括了JavaScript字符集编码与解码详谈的使用技巧和注意事项,需要的朋友参考一下 一、字符集 1)字符与字节(Character) 字符是各种文字和符号的总称,包括乱码;一个字符对应1~n个字节,一字节对应8位,每位用0或1表示。 2)字符集(Character Set) 字符集是多个字符的集合,每个字符集包含的字符个数不同,常见字符集
本文向大家介绍Python代码的打包与发布详解,包括了Python代码的打包与发布详解的使用技巧和注意事项,需要的朋友参考一下 在python程序中,一个.py文件被当作一个模块,在各个模块中定义了不同的函数。当我们要使用某一个模块中的某一个函数时,首先须将这个模块导入,否则就会出现函数未定义的情况. 下面记录的是打包及安装包的方法。 本文示例是建立一个模拟登录的程序: logIn.py文件代码如