当前位置: 首页 > 面试题库 >

Java使用哪种编码使用UTF-8或UTF-16?

万俟铭
2023-03-14
问题内容

现在考虑下面给出的代码:

public static void main(String[] args) {
    printCharacterDetails("最");
}

public static void printCharacterDetails(String character){
    System.out.println("Unicode Value for "+character+"="+Integer.toHexString(character.codePointAt(0)));
    byte[] bytes = character.getBytes();
    System.out.println("The UTF-8 Character="+character+"  | Default: Number of Bytes="+bytes.length);
    String stringUTF16 = new String(bytes, StandardCharsets.UTF_16);
    System.out.println("The corresponding UTF-16 Character="+stringUTF16+"  | UTF-16: Number of Bytes="+stringUTF16.getBytes().length);
    System.out.println("----------------------------------------------------------------------------------------");
}

当我尝试调试character.getBytes()上面代码中的行时,调试器将我带到getBytes()String类的方法中,然后将我带到static byte[] encode(char[] ca, int off, int len)StringCoding类的方法中。String csn = Charset.defaultCharset().name();在调试过程中,encode方法的第一行()返回“ UTF-8”作为默认编码。我希望它是“
UTF-16”。

该程序的输出为:

最= 6700的Unicode值UTF-8字符=最| 默认值:字节数= 3

对应的UTF-16字符= UTF-16:字节数= 6

当我在程序中将其显式转换为UTF-16时,它花了6个字节来表示字符。它不应该为UTF-16使用2或4个字节吗?为什么要使用6个字节?

我的理解哪里出错了?我使用Ubuntu 14.04,locale命令显示以下内容:

LANG=en_US.UTF-8

这是否意味着JVM根据基础操作系统决定使用哪种编码,还是仅使用UTF-16?请帮助我理解这个概念。


问题答案:

人物是人类文化中的图形实体。当计算机需要处理文本时,它将使用这些字符的字节 表示形式 。所使用的确切表示形式称为 编码

有许多编码可以表示相同的字符-通过Unicode字符集,或通过其他字符集(例如各种ISO-8859编码或JIS X 0208)。

在内部,Java使用UTF-16。这意味着每个字符可以由两个字节的一个或两个序列表示。您所使用的字符最糟的是代码点U +
6700,它以UTF-16表示为字节0x67和字节0x00。

那是 内部 编码。除非您转储内存并查看转储图像中的字节,否则您将看不到它。

但这种方法getBytes()没有 返回这个内部表示。它的文档说:

public byte[] getBytes()

String使用平台的默认字符集将其编码为字节序列,并将结果存储到新的字节数组中。

语言环境变量说的是“平台的默认字符集”。即UTF-8。因此,它将采用UTF-16内部表示形式,并将其转换为其他表示形式-UTF-8。

注意

new String(bytes, StandardCharsets.UTF_16);

不会像您假设的 那样
“将其明确转换为UTF-16”。此字符串构造函数采用一个字节序列,该字节序列应该位于第二个参数中给出的编码中,并将其转换为UTF-16表示形式,以表示这些字节在该编码中表示的任何字符。

但是您给了它一个以UTF-8编码的字节序列,并告诉它将其解释为UTF-16。这是错误的,并且您没有获得期望的字符或字节。

您无法告诉Java如何在内部存储字符串。它始终将它们存储为UTF-16。构造函数String(byte[],Charset)告诉Java从应该位于给定字符集中的字节数组中创建UTF-16字符串。该方法getBytes(Charset)告诉Java给您一个字节序列,该字节序列表示给定编码(字符集)中的字符串。而且getBytes()不带参数的方法也一样-
但是使用平台的默认字符集进行转换。

所以你误解了getBytes()给你的东西。这 不是
内部表示。您不能直接得到它。只会getBytes(StandardCharsets.UTF_16)给您,并且因为您知道那UTF-16是Java的内部表示。如果Java的未来版本决定以不同的编码表示字符,则getBytes(StandardCharsets.UTF_16)不会向您显示内部表示。

编辑: 实际上,Java
9在字符串的内部表示中引入了这种更改,默认情况下,所有字符都在ISO-8859-1范围内的字符串在内部用ISO-8859-1表示,而带有at的字符串与以前一样,该范围之外的至少一个字符在UTF-16中内部表示。因此的确,getBytes(StandardCharsets.UTF_16)不再返回内部表示。



 类似资料:
  • 本章是由 Alex Cabal 最初撰写在 PHP Best Practices 中的,我们使用它作为进行建议的基础。 这不是在开玩笑。请小心、仔细并且前后一致地处理它。 目前,PHP 仍未在底层实现对 Unicode 的支持。虽然有很多途径可以确保 UTF-8 字符串能够被正确地处理,但这并不是很简单的事情,通常需要对 Web 应用进行全方面的检查,从 HTML 到 SQL 再到 PHP。我们将

  • 问题内容: 我试图在Go中找到以下C#代码的等效项。 我知道Go 中有一个crypto / sha1软件包。我知道我可以跑步: 我不确定散列时如何获得正确的编码。我想知道是否可以得到一些帮助来转换此 问题答案: 根据文档: 缺少字节级转义的字符串文字始终包含有效的UTF-8序列。 因此,如果在Golang源代码中,则无需将字符串编码为utf8。但是,如果字符串来自输入,则utf8包是您的朋友。

  • 在使用序列化和反序列化对象时,有没有一种方法告诉Jackson使用UTF-8编码?

  • 问题内容: 目前,我正在尝试开始使用Spring MVC。在尝试时,我遇到了编码问题。 我想在我的JSP页面上显示UTF-8字符,所以我在ModelAndView中添加了一个带有UTF-8字符的字符串。看起来像这样: 在JSP页面上,我只想显示具有UTF-8字符的字符串,如下所示: 结果,我得到以下结果: 请注意,下面的代码显示没有编码错误。我还在Springsource Tool Suite中将

  • 我想知道是否有人能帮忙,我很难将UTF-8字符发布到SagePay。数据库是MySQL,带有数据库字符集utf8和数据库排序规则utf8_general_ci。数据库连接字符串使用useUnicode=true 所有发布到数据库的数据都存储为UTF-8,所有查询的数据都显示为UTF-8,但当字符串编码如下时: 然后发到SagePay,他们会收到一个来自国际字符所在位置的乱码字符串。如果字符串中不包

  • 问题内容: 考虑: 如何在源代码中声明UTF-8字符串? 问题答案: 在源头中,你可以声明: 在PEP 0263中进行了描述: 然后,你可以在字符串中使用UTF-8: 在Python 3中不需要此声明,因为UTF-8是默认的源编码(请参阅PEP 3120)。 此外,值得验证你的文本编辑器是否已将代码正确编码为UTF-8。否则,你可能会有不被解释为UTF-8的不可见字符。