问题：

使用C 17处理Unicode的高效、符合标准的机制是什么？

严正初

2023-03-14

简短版本：
如果我想编写可以有效地执行Unicode字符操作的程序，能够以UTF-8或UTF-16编码输入和输出文件。用C来做到这一点的适当方法是什么？

长版本：
C早于Unicode，从那以后两者都有了显着的发展。我需要知道如何编写符合标准的无泄漏C代码。我需要一个明确的答案：

我应该选择哪个字符串容器？

标准：：字符串与 UTF-8？
标准：：：wstring（真的不太了解它）
标准：：u16 字符串与 UTF-16？
标准：：u32 字符串与 UTF-32？

我应该完全坚持上述容器之一还是在需要时更换它们？

当使用 UTF 字符串时，我是否可以在字符串文本中使用非英语字符，例如波兰语字符：ąćęłńśźż 等？

当我们将UTF-8编码字符存储在std::string中时，会发生什么变化？它们是限于一个字节的ASCII字符还是可以是多字节的？
当我执行以下操作时会发生什么？

 std::string s = u8"foo";
 s += 'x';

wchar_t和其他多字节字符类型有什么区别？wchar_t字符或wchar_tstring文字是否能够存储UTF编码？

洪育

2023-03-14

我应该选择哪个字符串容器？

这真的取决于你自己根据自己的特殊需求来决定。您提出的任何选择都将起作用，并且它们都有自己的优点和缺点。通常，UTF-8 适合用于存储和通信目的，并且向后兼容 ASCII。而 UTF-16/32 在处理统一码数据时更易于使用。

std::wstring（不太了解它）

wchar_t的大小取决于编译器，甚至取决于平台。例如，在 Windows 上，wchar_t为 2 个字节，因此标准：：wstring 可用于 UTF-16 编码的字符串。在其他平台上，wchar_t可能是 4 个字节，这使得 std：：wstring 可用于 UTF-32 编码的字符串。这就是为什么wchar_t/std：：wstring通常不在可移植代码中使用，以及为什么在C 11中引入了char16_t/std：：u16字符串和char32_t/std：：u32字符串。对于 UTF-8，即使 char 也可能存在可移植性问题，因为在编译器供应商的排序中，char 可以是有符号的，也可以是无符号的，这就是为什么在 C 20 中为 UTF-8 引入了 char8_t/std：：u8string 的原因。

我应该完全坚持上述容器之一还是在需要时更换它们？

使用任何适合你需要的容器。

通常，您应该在整个代码中使用一种字符串类型。仅在字符串数据进入/离开程序的边界处执行数据转换。例如，当读/写文件、网络通信、平台系统调用等时。

如何在两者之间正确转换？

有很多方法可以解决这个问题。

C 11 及更高版本有标准：：wstring_convert/标准：：wbuffer_convert。但这些在C 17中被弃用了。

有第三方Unicode转换库，如ICONV、ICU等。

有C库函数，平台系统调用等。

当使用 UTF 字符串时，我是否可以在字符串文本中使用非英语字符，例如波兰语字符：ąćęłńśźż 等？

是的，如果您使用适当的字符串前缀:

u8用于UTF-8。

< code>L适用于UTF-16或UTF-32(取决于编译器/平台)。

u16用于UTF-16。

适用于UTF-32的< code>u32。

另请注意，用于保存源文件的字符集可能会影响编译器解释字符串文本的方式。因此，请确保您选择用于保存文件的任何字符集（如 UTF-8），您都会告诉编译器该字符集是什么，否则您可能会在运行时得到错误的字符串值。

当我们在标准：：字符串中存储UTF-8编码字符时，会发生什么变化？它们是限制为单字节 ASCII 字符，还是可以是多字节字符？

每个字符串字符可以是单字节，也可以是 Unicode 代码点的多字节表示形式的一部分。这取决于字符串的编码和要编码的字符。

就像标准：：wstring（当wchar_t为 2 个字节时）和 std：：u16 字符串可以保存包含 Unicode BMP 外部补充字符的字符串一样，这需要 UTF-16 代理项进行编码。

当字符串容器包含 UTF 编码字符串时，每个“字符”只是一个 UTF 编码的代码单元。UTF-8 将 Unicode 代码点编码为 1-4 个代码单元（标准：：字符串中为 1-4 个字符）。UTF-16 将代码点编码为 1-2 个代码单元（在标准：：wstring/std：u16 字符串中为 1-2 wchar_t s/char16_ts）。UTF-32 将代码点编码为 1 个代码单元（在 std：：u32 字符串中为 1 个char32_t）。

当我执行以下操作时会发生什么？

std::string s = u8"foo";
s += 'x';

正如你所料。< code>std::string包含< code>char元素。不管编码是什么，< code>operator =(char)都会在< code>std::string的末尾附加一个< code>char。

如何区分UTF char[]和非UTF char[]或< code>std::string？

您需要了解字符串的原始编码，或者对< code > char[]/< code > STD::string 数据进行自己的启发式分析，看看它是否符合UTF。

wchar_t和其他多字节字符类型有什么区别？

字节大小和 UTF 编码。

char=ANSI/MBCS或UTF-8

< code>wchar_t = DBCS、UTF-16或UTF-32，具体取决于编译器/平台

char8_t=UTF-8

char16_t = UTF-16

char32_t = UTF-32

wchar_t字符或wchar_t字符串文字能够存储UTF编码吗？

是的，UTF-16或UTF-32，具体取决于编译器/平台。对于UTF-16，单个wchar_t只能保存BMP中的代码点值。UTF-32中的单个wchar_t可以保存任何代码点值。wchar_t字符串可以用任一编码对所有代码点进行编码。

如何正确操作UTF字符串(比如toupper/tolower转换)并同时兼容地区？

这是一个非常广泛的议题，本身就值得单独提出这个问题。

使用C 17处理Unicode的高效、符合标准的机制是什么？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档