Unicode

ISO10646/Unicode规定了一套字符集，包含了世界上的大多数字符，规定了这些字符的编码，每个编码可以理解为一个数字。例如：汜，它对应的编码如果用十进制表示，就是27740。

unicode只规定了字符集，只规定了1对应的是什么字符，2对应的是什么字符。至于传输和存储，各个系统必须自己实现。在计算机领域里，一般使用UTF-8，UTF-16，UTF-32三种传输和存储格式。我们也可以说：unicode是定义，而utf-8等是具体实现。

范围

Plane 0 (0000–FFFF)，这个范围被称为Basic Multilingual Plane (BMP)，包含了65536个字符，目前全世界的人类文字和字符都被定义在这个范围里。其中大部分是中日韩字符。
Plane 1 (10000–1FFFF): Supplementary Multilingual Plane (SMP).
Plane 2 (20000–2FFFF): Supplementary Ideographic Plane (SIP)
Planes 3 to 13 (30000–DFFFF) are unassigned
Plane 14 (E0000–EFFFF): Supplementary Special-purpose Plane (SSP)
Plane 15 (F0000–FFFFF) reserved for the Private Use Area (PUA)
Plane 16 (100000–10FFFF), reserved for the Private Use Area (PUA)

BOM

UTF-8之BOM含义,UTF-8 BOM又叫UTF-8 签名,其实UTF-8 的BOM对UFT-8没有作用,是为了支援UTF-16,UTF-32才加上的BOM,BOM签名的意思就是告诉编辑器当前文件采用何种编码,方便编辑器识别,但是BOM虽然在编辑器中不显示,但是会产生输出,就像多了一个空行

UTF-8

UTF-8是一种兼容ascii的unicode传输存储格式。根据字符编码的范围不同而使用不一样的存储方式和长度。下面这个表里，字段1表示Unicode编码范围（十六进制），字段2表示编码所使用的存储方式（二进制），或许称为模板更为形象。字段2其实也表示了一个字符在计算机里存储所用的bits。

0000-007F | 0xxxxxxx 0080-07FF | 110xxxxx 10xxxxxx 0800-FFFF | 1110xxxx 10xxxxxx 10xxxxxx 10000-10FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

例如字符“汜”，在unicode里的编码为十六进制的6C5C，范围在0800-FFFF之间，所以取模板1110xxxx 10xxxxxx 10xxxxxx（也就是说，“汜”为三字节的宽字符），“汜”的编码换算成二进制（0110110001011100）后代入模板，得1110[0110] 10[110001] 10[011100]。中括号里的数字，连接起来就是该字符的unicode编码的二进制表示。

再例如字符“@”，在uinicode里的编码是十进制的64，范围在0000-007F之间，所以取模板0xxxxxxx。“@”的编码换算成二进制（1000000）后代入模板，得0[1000000]。它在计算机里的存储方式和ascii的“@”是一样的。这就是为什么utf-8是兼容ascii的原因。

UTF-16

UTF-16是一个不兼容ascii的unicode传输存储格式，一个utf-16字符在BMP里总是两字节的，也就是16个bits的。例如字符“@”，它的unicode编码的二进制表示是1000000，在高位补满16个0，得0000000001000000，这就是“@”unicode编码的UTF-16的二进制表示了。因为UTF-16不兼容ascii，而在计算机的世界里存在着大量以ascii方式存储的数据，所以，现在UTF-16并没有在文本处理领域里得到广泛使用。因为UTF-16在BMP总是两个字节，所以比起UTF-8，在存储中日韩字符的时候，相同的文本，需要的存储空间比较少。但是存储英文资料的时候，则比UTF-8需要更多的存储空间。

叶幽幽

2010年7月22日星期四

unicode(转)

Unicode

目录

范围

BOM

UTF-8

UTF-16

没有评论:

标签

博客归档

我的简介

Google Analytics