字符编码（Character Encodings）

优质

小牛编辑

137浏览

2023-12-01

字符编码是一种将字节转换为字符的方法。要正确验证或显示HTML文档，程序必须选择正确的字符编码。

计算机上使用的最常见的字符集或字符编码是ASCII - The American Standard Code for Information Interchange ，这可能是用于电子编码文本的最广泛使用的字符集。

ASCII编码仅支持大写和小写拉丁字母，数字0-9，以及一些总共128个字符的额外字符。您可以查看完整的可打印ASCII字符集

但是，许多语言使用重音拉丁字符或完全不同的字母表。 ASCII不解决这些字符; 因此，如果要使用任何非ASCII字符，则需要了解字符编码。

国际标准组织创建了一系列字符集来处理不同的国家特征。对于英语和大多数其他西欧语言的文档，使用广泛支持的编码ISO-8859-1。

以下是世界各地使用的字符集列表及其说明。

Sr.No	字符集和描述
1	ISO-8859-1 拉丁字母第1部分覆盖北美，西欧，拉丁美洲，加勒比海，加拿大，非洲
2	ISO-8859-2 拉丁字母第2部分覆盖东欧
3	ISO-8859-3 拉丁字母第3部分覆盖SE欧洲，世界语，其他杂项
4	ISO-8859-4 拉丁字母第4部分覆盖斯堪的纳维亚/波罗的海（以及其他非ISO-8859-1）
5	ISO-8859-5 拉丁文/西里尔字母第5部分
6	ISO-8859-6 拉丁/阿拉伯字母第6部分
7	ISO-8859-7 拉丁文/希腊字母第7部分
8	ISO-8859-8 拉丁文/希伯来文字母第8部分
9	ISO-8859-9 拉丁语5字母第9部分与ISO-8859-1相同，但土耳其语字符取代冰岛语字符
10	ISO-8859-10 拉丁语6拉丁语6拉普兰语，北欧语和爱斯基摩语
11	ISO-8859-15 与ISO-8859-1相同，但添加了更多字符
12	ISO-2022-JP 拉丁文/日文字母第1部分
13	ISO-2022-JP-2 拉丁文/日文字母第2部分
14	ISO-2022-KR 拉丁文/韩文字母第1部分

然后设置Unicode Consortium以设计一种显示不同语言的所有字符的方法，而不是为不同的语言提供这些不同的不兼容字符代码。

因此，如果要创建使用多个字符集中的字符的文档，则可以使用单个Unicode字符编码来执行此操作。

因此，Unicode指定了可以以特殊方式处理字符串的编码，以便为它所包含的巨大字符集提供足够的空间。这些被称为UTF8，UTF-16和UTF-32。

Sr.No	字符集和描述
1	UTF-8 Unicode转换格式，以8位为单位，以字节为单位。 UTF8中的字符长度可以是1到4个字节，使得UTF8可变宽度。
2	UTF-16 一种Unicode转换格式，以16位为单位，简而言之。它可以是1或2个短裤，使UTF16可变宽度。
3	UTF-32 一种Unicode转换格式，以32位为单位，它有很多。它是固定宽度的格式，长度始终为1“长”。

Sr.No

字符集和描述

UTF-8

Unicode转换格式，以8位为单位，以字节为单位。 UTF8中的字符长度可以是1到4个字节，使得UTF8可变宽度。

UTF-16

一种Unicode转换格式，以16位为单位，简而言之。它可以是1或2个短裤，使UTF16可变宽度。

UTF-32

一种Unicode转换格式，以32位为单位，它有很多。它是固定宽度的格式，长度始终为1“长”。

Unicode字符集的前256个字符对应于ISO-8859-1的256个字符。

默认情况下，HTML 4处理器应支持UTF-8，而XML处理器应支持UTF-8和UTF-16; 因此，所有符合XHTML标准的处理器也应支持UTF-16。