2.3.3 字符的机内表示

优质

小牛编辑

136浏览

2023-12-01

2.3.3 字符的机内表示

和数值一样，字符在计算机内部也是用二进制数表示的，这个二进制数称为该字符的编码。于是，字符串在计算机内自然就用二进制数的序列表示。可以推知，对字符和字符串的所有操作，实质上都是对二进制数的运算。我们在屏幕上看到各个字符有各自的形状，这只是计算机的显示系统将字符的编码映射到特定屏幕像素组合的结果。

表示每个字符的二进制编码具体等于几并不重要，我们可以用(1111)2 表示字符 A，也可以用(0000)2 表示字符 A，这不会带来什么本质的不同，事实上只要确保不同字符有不同的编码即可。但是，为了在不同计算机之间能够交换信息，避免发生一台计算机上的字符 A（假设编码是(0000)2）传给另一台计算机后被解释成字符 B（假设(0000)2 在这台机器上恰好是 B 的编码），我们需要统一字符编码。基于这个思想，人们制定了字符集编码标准—— 定义所支持的字符集以及每个字符的二进制编码。

由于计算机是美国人发明的，所以较早出现的一个编码标准是根据美国的使用情况制定的标准，称为 ASCII①。这个标准也是最重要的，几乎所有计算机都支持 ASCII 的字符编码。 ASCII 使用一个字节的 7 位二进制位来表示字符（最高位恒为 0），这样就只能支持 27 = 128 个字符，各字符的编码如果用十进制表示就是 0～127。ASCII 所定义的字符包括大小写英文字母、阿拉伯数字、标点符号、空格、回车、换行等，它们分为可打印字符和控制字符两类。

① American Standard Code for Information Interchange 的首字母缩写。

Python 中提供了两个与字符编码有关的函数：ord()函数用于从字符得到其编码，chr() 函数用于从编码得出对应的字符。例如：

>>> ord('A')
65
>>> ord('a')
97
>>> ord('8')
56
>>> ord(' ')
32
>>> chr(64)
'@'
>>> chr(10) '\n'
>>> chr(13)
'\r'

对此例有几点说明：第四个例子是求空格字符的编码（32）；第六个例子说明编码 10 对应的字符可以用转义字符\n 表示，它其实就是换行字符；第七个例子说明编码 13 对应的字符可以用转义字符\r 表示，它其实就是回车字符。换行和回车都是控制字符的例子，控制字符不像字母数字那样有可打印、显示的形状，但在程序中可以用转义字符来表示某些控制字符。

ASCII 编码的一个问题是支持的字符太少，对美国人来说够用，但对其他国家来说远远不够。因此产生了各种对 ASCII 的扩充标准。例如针对欧洲语言的 Latin-1 标准将一个字节的最高位也用上，从而在 ASCII 的基础上增加了 128 个字符。

中国的汉字也是字符，并且数量很大，用一个字节编码是远远不够的。较早的国家标准 GB2312 采用两个字节来对汉字编码，共定义了 6763 个汉字。后来产生了 GBK 规范，仍然用两个字节编码，但支持 2 万多个汉字。最新的国家标准是 GB18030，它最多可用四个字节编码，支持 7 万多个汉字。

为了将全世界的字符编码统一起来，国际标准化组织 ISO 制定了一个庞大的字符编码标准 Unicode。Unicode 最多用四个字节的编码，因此可以囊括地球上所有语言所用到的所有字符，目前已经得到广泛支持。较新版本的 Python 语言（包括 2.7 版）都支持 Unicode。下面我们举例说明 Python 对非 ASCII 字符的处理方法。最简单的方法是使用 Unicode 字符串。Python 语言中，在字符串前面加个前缀 u 就表示 Unicode 字符串，其中可以使用

任意 Unicode 字符。例如：

>>> print u'A\xc4B'
AÄB

在这个例子中，字符串由三个字符构成：头尾两个字符分别是 A、B，可以从键盘直接输入；中间的字符是 Latin-1 字符集中的字符 ?，无法从键盘直接输入，但可以通过输入十六进制编码（即 c4，另外\x 是十六进制数的标志）的方式来输入。

再看汉字的例子：

>>> '汉'
\xba\xba
>>> print '汉'
汉
>>> print '\xba\xba'
汉

从第一条语句可以看出，我们输入的“汉”字在机器内部被表示成了两个字节的编码，该编码按十六进制表示等于 baba，亦即 GBK 规范中“汉”的编码①。接下来两条 print 语句表明，字符“汉”和编码“\xba\xba”作用是一样的。

如果需要将汉字和 ASCII 字符、Latin-1 字符等混合在一起构成字符串，那就只能用 Unicode 字符串。例如，“汉”在 Unicode 中的编码是 6c49，在 Unicode 字符串中可以用\u6c49 代表“汉”。结合前面的例子，读者应能理解下面这条语句的结果：

>>> print u'A\u6c49\xc4B'
A 汉 腂

如果希望 Python 程序能够处理包含汉字的字符串，用 Unicode 字符串是最可靠的做法。

具体细节在此从略。