问题：

UTF-8可以编码多少个字符？

鲁永福

2023-03-14

如果UTF-8是8位，不意味着最多只能有256个不同的字符吗？

前128个代码点与ASCII中的相同。但是它说UTF-8可以支持多达百万个字符？

这是怎么回事？

共有3个答案

陆正德

2023-03-14

Unicode将代码点解析为字符。UTF-8是Unicode的一种存储机制。Unicode有一个规范。UTF-8有一个规范。它们都有不同的限制。UTF-8具有不同的上界。

Unicode被指定为“平面”每架飞机携带2个^{16个^{代码点。Unicode中有17个平面。总共为17*2^16代码点。第一个平面，平面0或BMP，在其承载的重量方面是特殊的。}}

与其解释所有的细微差别，不如让我引用上面关于飞机的文章。

这17架飞机可容纳1114112个代码点。其中2048个为代理，66个为非字符，137468个为私人使用，974530个为公共分配。

现在让我们回到上面链接的文章，

UTF-8使用的编码方案被设计为具有更大的限制2³¹代码点（32,768个平面），并且可以编码2²¹代码点（32个平面），即使限制为4个字节。[3]由于Unicode将代码点限制为可由UTF-16编码的17个平面，因此在UTF-8和UTF-32中，高于0x10FFFF的代码点无效。

所以您可以看到，您可以将无效Unicode的内容放入UTF-8中。为什么？因为UTF-8包含Unicode甚至不支持的代码点。

UTF-8即使有四字节限制，也支持2个²¹代码点，远远超过17*2^16

全鸿晖

2023-03-14

UTF-8每个字符使用1-4个字节：一个字节用于ascii字符（前128个unicode值与ascii相同）。但这只需要7位。如果设置了最高（“符号”）位，则表示多字节序列的开始；连续高位集的数量表示字节数，然后是0，剩余的位表示该值。对于其他字节，最高两位为1和0，其余6位为值。

所以一个四字节的序列将以11110开始。。。（和…=值的三位）然后是三个字节，每个字节6位，产生一个21位的值。2^21超过了unicode字符数，因此所有unicode都可以用UTF8表示。

巫马安怡

2023-03-14

UTF-8并不总是使用一个字节，它是1到4个字节。

前128个字符（US-ASCII）需要一个字节。

接下来的1920个字符需要两个字节进行编码。这涵盖了几乎所有拉丁字母的其余部分，也包括希腊语、西里尔语、科普特语、亚美尼亚语、希伯来语、阿拉伯语、叙利亚语和塔纳语字母，以及组合变音符号。

基本多语言平面的其余部分需要三个字节，基本多语言平面包含几乎所有常用的字符[12]，包括大多数中文、日文和韩文[CJK]字符。

Unicode的其他平面中的字符需要四个字节，包括不太常见的CJK字符、各种历史脚本、数学符号和表情符号（象形符号）。

资料来源：维基百科

共有3个答案