欢迎来到天天文库
浏览记录
ID:47487642
大小:27.89 KB
页数:11页
时间:2020-01-12
《Unicode字符集(简称为UCS)》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、仁人教育Unicode字符集(简称为UCS) 1.名称的由来Unicode字符集编码是(UniversalMultiple-OctetCodedCharacterSet)通用多八位编码字符集的简称,支持世界上超过650种语言的国际字符集。Unicode允许在同一服务器上混合使用不同语言组的不同语言。它是由一个名为Unicode学术学会(UnicodeConsortium)的机构制订的字符编码系统,支持现今世界各种不同语言的书面文本的交换、处理及显示。该编码于1990年开始研发,1994年正式公布,最新版本是2005年3月31日的Unicode4.1.0。U
2、nicode是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。2.编码方法Unicode标准始终使用十六进制数字,而且在书写时在前面加上前缀“U+”,例如字母“A”的编码为004116。所以“A”的编码书写为“U+0041”。3.UTF-8编码UTF-8是Unicode的其中一个使用方式。UTF是UnicodeTranslationFormat,即把Unicode转做某种格式的意思。UTF-8便于不同的计算机之间使用网络传输不同语言和编码的文字,使得双字节的Unicode能
3、够在现存的处理单字节的系统上正确传输。UTF-8使用可变长度字节来储存Unicode字符,例如ASCII字母继仁人教育续使用1字节储存,重音文字、希腊字母或西里尔字母等使用2字节来储存,而常用的汉字就要使用3字节。辅助平面字符则使用4字节。4.UTF-16和UTF-32编码UTF-32、UTF-16 和UTF-8是Unicode标准的编码字符集的字符编码方案,UTF-16使用一个或两个未分配的16位代码单元的序列对Unicode代码点进行编码;UTF-32即将每一个Unicode代码点表示为相同值的32位整数通过一个问题了解unicode编码问题:使用Wi
4、ndows记事本的“另存为”,可以在ANSI、GBK、Unicode、Unicodebigendian和UTF-8这几种编码方式间相互转换。同样是txt文件,Windows怎样识别编码方式的呢?我很早前就发现Unicode、Unicodebigendian和UTF-8编码的txt文件的开头会多出几个字节,分别是FF、FE(Unicode),FE、FF(Unicodebigendian),EF、BB、BF(UTF-8)。但这些标记是基于什么标准呢?答案:ANSI字符集定义:ASCII字符集,以及由此派生并兼容的字符集,如:GB2312,正式的名称为MBCS(
5、Multi-ByteChactacterSystem,多字节字符系统),通常也称为ANSI字符集。 UNICODE与UTF8、UTF16 由于每种语言都制定了自己的字符集,导致最后存在的各种字符集实在太多,在国际交流中要经常转换字符集非常不便。因此,产生了仁人教育Unicode字符集,它固定使用16bits(两个字节)来表示一个字符,共可以表示65536个字符 标准的Unicode称为UTF-16(UTF:UCSTransformationFormat)。后来为了双字节的Unicode能够在现存的处理单字节的系统上正确传输,出现了UTF-8,使用类似MBC
6、S的方式对Unicode进行编码。(Unicode字符集有多种编码形式) 例如"连通"两个字的Unicode标准编码UTF-16(bigendian)为:DE8F1A90 而其UTF-8编码为:E8BF9EE9809A 当一个软件打开一个文本时,它要做的第一件事是决定这个文本究竟是使用哪种字符集的哪种编码保存的。软件一般采用三种方式来决定文本的字符集和编码: 检测文件头标识,提示用户选择,根据一定的规则猜测 最标准的途径是检测文本最开头的几个字节,开头字节Charset/encoding,如下表: EFBBBF:UTF-8 FFFE:UTF-16/UCS-
7、2,littleendian FEFF:UTF-16/UCS-2,bigendian FFFE0000:UTF-32/UCS-4,littleendian. 0000FEFF:UTF-32/UCS-4,big-endian. 1、bigendian和littleendianbigendian和littleendian是CPU处理多字节数的不同方式。例如“汉”仁人教育字的Unicode编码是6C49。那么写到文件里时,究竟是将6C写在前面,还是将49写在前面?如果将6C写在前面,就是bigendian。还是将49写在前面,就是littleendian。“en
8、dian”这个词出自《格列佛游记》。小人国的内战就源于吃鸡蛋时是究
此文档下载收益归作者所有