至顶网›软件频道 ›String.getBytes("Unicode")中，额外2个字节的来源

String.getBytes("Unicode")中，额外2个字节的来源

扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条

作者：csdn 来源：csdn 2009年12月17日

String.getBytes("Unicode")中，额外2个字节的来源

Java code    String s = "1";
    byte[] arr = s.getBytes("UNICODE");
    System.out.println(Arrays.toString(arr)); // 12

请写出运行结果，并从源代码级解释原因。

JDK 为 6.0

为了在读取字节时能知道所采用的字节序，在传输时采用了一个名为
“ZERO WIDTH NON-BREAKING SPACE”（U+FEFF）的字符用于限定字节
序，开头两个字节为 FE FF 时为 Big-Endian，为 FF FE 时为 Little-Endian。
详见 RFC2781 3.2 节。
在 Java 中直接使用 Unicode 转码时会按照 UTF-16LE 的方式拆分，并加上 BOM。
如果采用 UTF-16 拆分，在 Java 中默认采用带有 BOM 的 UTF-16BE 拆分。

Unicode规范中推荐的标记字节顺序的方法是BOM。BOM不是“Bill Of Material”的BOM表，而是Byte Order Mark。
(Unicode是一种字符编码方法，不过它是由国际组织设计，可以容纳全世界所有语言文字的编码方案。Unicode的学名是"Universal Multiple-Octet Coded Character Set"，简称为UCS。UCS可以看作是"Unicode Character Set"的缩写。)
在UCS编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。
这样如果接收者收到FEFF，就表明这个字节流是Big-Endian的；如果收到FFFE，就表明这个字节流是Little-Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被称作BOM。
在 Java 中直接使用Unicode 转码时会按照UTF-16LE 的方式拆分，并加上 BOM。如果采用 UTF-16 拆分，在 Java 中默认采用带有 BOM 的 UTF-16BE 拆分。 (其实Unicode与UTF-8是完全一样的)

String.getBytes("Unicode")中，额外2个字节的来源

业界热点: