用Java将UTF-16转换为ASCII

花飞扬

2023-03-14

问题内容：

一直以来都忽略了它，我目前正在强迫自己学习有关Java中的unicode的更多信息。我需要做一个关于将UTF-16字符串转换为8位ASCII的练习。有人可以启发我如何用Java做到这一点吗？我知道您无法用ASCII表示所有可能的unicode值，因此在这种情况下，无论如何我都希望仅添加超过0xFF的代码（坏数据也应该仅以静默方式添加）。

谢谢！

问题答案：

这个怎么样：

String input = ... // my UTF-16 string
StringBuilder sb = new StringBuilder(input.length());
for (int i = 0; i < input.length(); i++) {
    char ch = input.charAt(i);
    if (ch <= 0xFF) {
        sb.append(ch);
    }
}

byte[] ascii = sb.toString().getBytes("ISO-8859-1"); // aka LATIN-1

对于大型字符串，这可能不是最有效的转换方法，因为我们将字符复制了两次。但是，它具有简单明了的优点。

顺便说一句，严格来说，没有这样的字符集，例如8位ASCII。ASCII是7位字符集。LATIN-1是最接近“
8位ASCII”字符集的东西（Unicode的块0等效于LATIN-1），所以我假设这就是您的意思。

编辑：根据问题的更新，解决方案甚至更简单：

String input = ... // my UTF-16 string
byte[] ascii = new byte[input.length()];
for (int i = 0; i < input.length(); i++) {
    ascii[i] = (byte) input.charAt(i);
}

此解决方案效率更高。因为现在我们知道要期待多少字节，所以我们可以预先分配字节数组并复制（截断的）字符，而无需使用StringBuilder作为中间缓冲区。

但是，我不认为以这种方式处理错误数据是明智的。

编辑2：还有一个晦涩的“陷阱”。Unicode实际上将代码点（字符）定义为“大约21位”值… 0x000000到0x10FFFF
…并使用替代来表示> 0x00FFFF的代码。换句话说，Unicode代码点>
0x00FFFF实际上在UTF-16中表示为两个“字符”。我的回答或任何其他回答都没有考虑到这一点（深奥的）。实际上，在Java中处理>
0x00FFFF的代码点通常比较棘手。这是因为’char’是16位类型，而String是根据’char’定义的。

编辑3：也许处理不转换为ASCII的意外字符更明智的解决方案是用标准替换字符替换它们：

String input = ... // my UTF-16 string
byte[] ascii = new byte[input.length()];
for (int i = 0; i < input.length(); i++) {
    char ch = input.charAt(i);
    ascii[i] = (ch <= 0xFF) ? (byte) ch : (byte) '?';
}

用Java将UTF-16转换为ASCII

相关阅读

相关文章

相关问答

相关工具

相关文档