欢迎来到天天文库
浏览记录
ID:8804800
大小:59.50 KB
页数:8页
时间:2018-04-08
《unicode字符集和多字节字符集关系》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、Unicode字符集和多字节字符集关系在计算机中字符通常并不是保存为图像,每个字符都是使用一个编码来表示的,而每个字符究竟使用哪个编码代表,要取决于使用哪个字符集(charset)。 在最初的时候,Internet上只有一种字符集——ANSI的ASCII字符集,它使用7bits来表示一个字符,总共表示128个字符,其中包括了英文字母、数字、标点符号等常用字符。之后,又进行扩展,使用8bits表示一个字符,可以表示256个字符,主要在原来的7bits字符集的基础上加入了一些特殊符号例如制表符。 后来,由于各国语言的加入,ASCI
2、I已经不能满足信息交流的需要,因此,为了能够表示其它国家的文字,各国在ASCII的基础上制定了自己的字符集,这些从ANSI标准派生的字符集被习惯的统称为ANSI字符集,它们正式的名称应该是MBCS(Multi-ByteChactacterSystem,即多字节字符系统)。这些派生字符集的特点是以ASCII127bits为基础,兼容ASCII127,他们使用大于128的编码作为一个Leading Byte,紧跟在LeadingByte后的第二(甚至第三)个字符与LeadingByte一起作为实际的编码。这样的字符集有很多,我们常
3、见的GB-2312就是其中之一。 例如在GB-2312字符集中,“连通”的编码为C1ACCDA8,其中C1和CD就是LeadingByte。前127个编码为标准ASCII保留,例如“0”的编码是30H(30H表示十六进制的30)。软件在读取时,如果看到30H,知道它小于128就是标准ASCII,表示“0”,看到C1大于128就知道它后面有一个另外的编码,因此C1AC一同构成一个整个的编码,在GB-2312字符集中表示“连”。 由于每种语言都制定了自己的字符集,导致最后存在的各种字符集实在太多,在国际交流中要经常转换字符集非常不
4、便。因此,提出了Unicode字符集,它固定使用16bits(两个字节、一个字)来表示一个字符,共可以表示65536个字符。将世界上几乎所有语言的常用字符收录其中,方便了信息交流。标准的Unicode称为UTF-16。后来为了双字节的Unicode能够在现存的处理单字节的系统上正确传输,出现了UTF-8,使用类似MBCS的方式对Unicode进行编码。注意UTF-8是编码,它属于Unicode字符集。Unicode字符集有多种编码形式,而ASCII只有一种,大多数MBCS(包括GB-2312)也只有一种。Unicode的最初目
5、标,是用1个16位的编码来为超过65000字符提供映射。但这还不够,它不能覆盖全部历史上的文字,也不能解决传输的问题(implantationhead-ache's),尤其在那些基于网络的应用中。已有的软件必须做大量的工作来程序16位的数据。因此,Unicode用一些基本的保留字符制定了三套编码方式。它们分别是UTF-8,UTF-16和UTF-32。正如名字所示,在UTF-8中,字符是以8位序列来编码的,用一个或几个字节来表示一个字符。这种方式的最大好处,是UTF-8保留了ASCII字符的编码做为它的一部分,例如,在UTF-8
6、和ASCII中,“A”的编码都是0x41.UTF-16和UTF-32分别是Unicode的16位和32位编码方式。考虑到最初的目的,通常说的Unicode就是指UTF-16。 例如“连通”两个字的Unicode标准编码UTF-16(bigendian)为:DE8F1A90 而其UTF-8编码为:E8BF9EE9809A 最后,当一个软件打开一个文本时,它要做的第一件事是决定这个文本究竟是使用哪种字符集的哪种编码保存的。软件有三种途径来决定文本的字符集和编码: 最标准的途径是检测文本最开头的几个字节,如下表: 开头字节Chars
7、et/encoding EFBBBFUTF-8 FEFFUTF-16/UCS-2,littleendian FFFEUTF-16/UCS-2,bigendian FFFE0000UTF-32/UCS-4,littleendian.0000FEFFUTF-32/UCS-4,big-endian.例如插入标记后,连通”两个字的UTF-16(bigendian)和UTF-8码分别为: FFFEDE8F1A90 EFBBBFE8BF9EE9809A 但是MBCS文本没有这些位于开头的字符集标记,更不幸的是,一些早期的和一些设计不良的软
8、件在保存Unicode文本时不插入这些位于开头的字符集标记。因此,软件不能依赖于这种途径。这时,软件可以采取一种比较安全的方式来决定字符集及其编码,那就是弹出一个对话框来请示用户,例如将那个“连通”文件拖到MSWord中,Word就会弹出一个对话框。 如果软件不想麻烦用户,或
此文档下载收益归作者所有