问题：

将Unicode字符串作为字符循环

端木淇

2023-03-14

对于以下字符串，大小输出不正确。为什么会这样？我该如何解决？

string str = " ██████";
cout << str.size();
// outputs 19 rather than 7

我试着逐字符遍历str，这样我就可以把它读入向量

共有2个答案

戎元忠

2023-03-14

std：：string仅包含1字节长的字符（通常为8位，包含UTF-8字符），您需要wchar\u t和std：：wstring来实现您想要的：

std::wstring str = L" ██████";
std::cout << str.size();

尽管这打印了7个（一个空格和6个unicode字符）。请注意字符串文字之前的L，因此它将被解释为宽字符串。

鄢英哲

2023-03-14

basic_字符串的size（）和length（）成员返回以基础字符串为单位的大小，而不是可见字符数。要获得预期数量：

对于不包含非BMP、组合字符和连接字符的非常简单的字符串，请使用带前缀的UTF-16
对于不包含任何组合或连接字符的非常简单的字符串，请使用带前缀的UTF-32
规范化字符串并对任意Unicode字符串进行计数

<代码>”██████“是一个空格，后跟一系列6u2588个字符。您的编译器似乎将UTF-8用于std：：string。UTF-8是一种可变长度编码，许多字母使用多个字节编码（因为很明显，单用一个字节编码不能超过256个字符）. 在UTF-8中，U 0800和U FFFF之间的代码点由3个字节编码。所以UTF-8中字符串的长度是16*3=19字节。

您可以使用像这样的任何Unicode转换器进行检查，并看到字符串在UTF-8中被编码为20 E2 96 88 E2 96 88 E2 96 88 E2 96 88，您还可以循环遍历字符串的每个字节以检查

如果你想知道字符串中可见字符的总数，那么就要复杂得多，churill的解决方案也不起作用。阅读推特上的示例

如果你使用最基本的字母、数字和标点符号之外的任何东西，情况会变得更加混乱。虽然许多人使用多字节汉字来举例说明这些问题，但推特发现，重音元音最容易引起混淆，因为说英语的人只是希望它们能起作用。举个例子：“café”这个词。事实证明，有两个字节序列看起来完全相同，但使用的字节数不同：

café  0x63 0x61 0x66 0xC3 0xA9        Using the “é” character, called the “composed character”.
café  0x63 0x61 0x66 0x65 0xCC 0x81   Using the combining diacritical, which overlaps the “e”

您需要一个像ICU这样的Unicode库来规范化字符串和计数。例如，Twitter使用规范化表单C

由于您只对似乎不在BMP之外且不包含任何组合字符的框绘制字符感兴趣，因此UTF-16和UTF-32将起作用。与std::string一样，std::wstring也是basic_string，并且没有强制编码。在大多数实现中，它通常是UTF-16（Windows）或UTF-32（*nix），因此您可以使用它，但它不可靠，并且取决于源代码编码。更好的方法是使用std::u16string（std::basic_string

std::wstring wstr     = L" ██████";
std::u16string u16str = u" ██████";
std::u32string u32str = U" ██████";
std::cout << str.size();    // may work, returns the number of wchar_t characters
std::cout << u16str.size(); // always returns the number of UTF-16 code units
std::cout << u32str.size(); // always returns the number of UTF-32 code units

如果您对如何解决所有Unicode字符的问题感兴趣，请继续阅读下面的内容

上面提到的“café”问题提出了一个问题，即如何计算推特字符串“café”中的字符。在人眼看来，长度显然是四个字符。根据数据的表示方式，可以是5个或6个UTF-8字节。推特不想因为我们使用UTF-8或者API客户端使用更长的表示形式而惩罚用户。因此，无论发送哪种表示，推特都会将“café”计算为四个字符。

[...]

推特使用文本的标准化形式C（NFC）计算推特的长度。与长格式版本（0x65 0xCC 0x81）相比，这种规范化更倾向于使用完全组合的字符（café示例中的0xC3 0xA9）。Twitter还统计文本中的代码点数量，而不是UTF-8字节。café示例中的0xC3 0xA9是一个代码点（U 00E9），在UTF-8中编码为两个字节，而0x65 0xCC 0x81是两个编码为三个字节的代码点

推特-计数字符

另请参见

当“Zoë”！==“Zoë”。或者为什么需要规范化Unicode字符串

将Unicode字符串作为字符循环

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档