问题：

将字符串从一个字符集转换为另一个字符集

湛宜春

2023-03-14

我正在研究将字符串从一个字符集转换为另一个字符集，阅读了很多关于它的示例，最终找到了下面的代码，这对我来说很好，作为一个字符集编码的新手，我想知道，这是否是正确的方法。

public static byte[] transcodeField(byte[] source, Charset from, Charset to) {
    return new String(source, from).getBytes(to);
}

要将字符串从ASCII转换为EBCDIC，我必须执行以下操作：

System.out.println(new String(transcodeField(ebytes,
                Charset.forName("US-ASCII"), Charset.forName("Cp1047"))));

要将EBCDIC转换为ASCII，我必须：

System.out.println(new String(transcodeField(ebytes,
                Charset.forName("Cp1047"), Charset.forName("US-ASCII"))));

柴飞星

2023-03-14

您找到的代码（transcodeField）不会将String从一种编码转换为另一种编码，因为String没有编码。它将字节从一种编码转换为另一种编码。只有当你的用例满足两个条件时，该方法才有用：

您的输入数据是一种编码中的字节

在这种情况下，这是直截了当的：

byte[] out = transcodeField(inbytes, Charset.forName(inEnc), Charset.forName(outEnc));

如果输入数据包含不能在输出编码中表示的字符（例如将复杂的UTF8转换为ASCII），这些字符将被替换为？替换符号，并且数据将被损坏。

然而，很多人问“如何将字符串从一种编码转换为另一种编码”，对此很多人用以下片段回答：

String s=新字符串（source.getBytes（inputEncoding），outputEncoding）

这完全是胡说八道。getBytes（String encoding）方法返回一个字节数组，其中包含按指定编码编码的字符（如果可能，无效字符也会被转换为？）。带有第2个参数的字符串构造函数从字节数组创建一个新字符串，其中字节采用指定的编码。既然你刚刚使用了源代码。getBytes（inputEncoding）要获取这些字节，它们不在OutpuneCoding中编码（除非编码使用相同的值，这对于像abcd这样的“普通”字符很常见，但与更复杂的重音字符不同。

那么这意味着什么呢？这意味着当你有一个Java字符串时，一切都很好<代码>字符串是unicode，这意味着所有字符都是安全的。当您需要将字符串转换为字节时，就会出现问题，这意味着您需要决定编码方式。选择与unicode兼容的编码，例如UTF8，UTF16等，这是非常好的选择。这意味着即使字符串中包含各种奇怪的字符，您的字符仍然是安全的。如果选择不同的编码（支持度最低的是US-ASCII），则字符串必须仅包含编码支持的字符，否则将导致字节损坏。

现在最后是一些好的和坏的用法的例子。

String myString = "Feng shui in chinese is 風水";
byte[] bytes1 = myString.getBytes("UTF-8");  // Bytes correct
byte[] bytes2 = myString.getBytes("US-ASCII"); // Last 2 characters are now corrupted (converted to question marks)

String nordic = "Här är några merkkejä";
byte[] bytes3 = nordic.getBytes("UTF-8");  // Bytes correct, "weird" chars take 2 bytes each
byte[] bytes4 = nordic.getBytes("ISO-8859-1"); // Bytes correct, "weird" chars take 1 byte each
String broken = new String(nordic.getBytes("UTF-8"), "ISO-8859-1"); // Contains now "HÃ¤r Ã¤r nÃ¥gra merkkejÃ¤"

最后一个示例演示了即使两种编码都支持北欧字符，但它们使用不同的字节来表示它们，并且在解码Mojibake结果时使用了错误的编码。因此，不存在“将字符串从一种编码转换为另一种编码”这样的事情，并且您永远不应该使用破碎的示例。

还请注意，您应该始终指定所使用的编码（同时使用getBytes（）和new String（）），因为您不能相信默认编码总是您想要的编码。

最后一个问题是，字符集和编码不是一回事，但它们有很大的关联。

从技术上讲，字符串在JVM内部存储的方式是UTF-16编码，最高Java8，从Java9开始的变量编码，但是开发人员不需要关心这个。

注意事项

有可能有一个损坏的字符串，并且能够通过摆弄编码来解除它的损坏，这可能是这种“将字符串转换为其他编码”误解的起源。

// Input comes from network/file/other place and we have misconfigured the encoding 
String input = "HÃ¤r Ã¤r nÃ¥gra merkkejÃ¤"; // UTF-8 bytes, interpreted wrongly as ISO-8859-1 compatible
byte[] bytes = input.getBytes("ISO-8859-1"); // Get each char as single byte
String asUtf8 = new String(bytes, "UTF-8"); // Recreate String as UTF-8

如果输入中没有损坏字符，字符串现在将被“修复”。然而，正确的方法是在读取输入时使用正确的编码，而不是事后修复。尤其是如果它有可能被腐蚀的话。

将字符串从一个字符集转换为另一个字符集

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档