资源描述:
《各种编码的区别》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、ASCII,UNICODE,UTF8,BIG5,GB2312,GBK,GB18030等几种常用编码区别 最近老为编码问题而烦燥,下定决心一定要将其弄明白!本文主要总结网上一些朋友提供的ascii,ISO-8859-1,unicode,utf8,gb2312,big5,gbk,gb18030等几种常区别. 1.ASCII码 目前计算机中用得最广泛的字符集及其编码,是由美国国家标准局(ANSI)制定的ASCII码(AmericanStandardCodeforInformationIntercha
2、nge,美国标准信息交换码),它已被国际标准化组织(ISO)定为国际标准,称为ISO646标准。适用于所有拉丁文字字母,ASCII码有7位码和8位码两种形式。 我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符串。每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte)。也就是说,一个字节一共可以用来表示256种不同的状态,每一个状态对应一个符号,就是256个符号,从0000000到11111111。ASCII表ASCII值控制字符ASCI
3、I值控制字符ASCII值控制字符ASCII值控制字符0NUL32(space)64@96、1SOH33!65A97a2STX34”66B98b3ETX35#67C99c4EOT36$68D100d5ENQ37%69E101e6ACK38&70F102f7BEL39,71G103g8BS40(72H104h9HT41)73I105i10LF42*74J106j11VT43+75K107k12FF44,76L108l13CR45-77M109m14SO46.78N110n15SI47/79O111o16DLE4808
4、0P112p17DCI49181Q113q18DC250282R114r19DC351383X115s20DC452484T116t21NAK53585U117u22SYN54686V118v23TB55787W119w24CAN56888X120x25EM57989Y121y26SUB58:90Z122z27ESC59;91[123{28FS60< 92"124
5、29GS61=93]125}30RS62> 94^126~31US63?95—127DELNUL空字符(Null)VT垂直制表SYN空转同步SOH 标
6、题开始FF 走纸控制ETB 信息组传送结束STX 正文开始CR 回车CAN 作废ETX 正文结束SO 移位输出EM 纸尽EOY 传输结束SI 移位输入SUB 换置ENQ 询问字符DLE 空格ESC 换码ACK 承认DC1 设备控制1FS 文字分隔符BEL 报警DC2 设备控制2GS 组分隔符BS 退一格DC3 设备控制3RS 记录分隔符HT 横向列表DC4 设备控制4US 单元分隔符LF 换行NAK 否定DEL 删除英语用128个符号编码就够了,但是用来表示其他语言,128个符号是不够的
7、。比如,在法语中,字母上方有注音符号,它就无法用ASCII码表示。于是,一些欧洲国家就决定,利用字节中闲置的最高位编入新的符号。比如,法语中的é的编码为130(二进制10000010)。这样一来,这些欧洲国家使用的编码体系,可以表示最多256个符号。但是,这里又出现了新的问题。不同的国家有不同的字母,因此,哪怕它们都使用256个符号的编码方式,代表的字母却不一样。比如,130在法语编码中代表了é,在希伯来语编码中却代表了字母Gimel(ג),在俄语编码中又会代表另一个符号。但是不管怎样,所有这些编码方式中,0—1
8、27表示的符号是一样的,不一样的只是128—255的这一段,所以出现后面的统一编码方式。注:若想得到更详细的参见http://ascii.911cha.com/2、各地的方言在中国,大陆最常用的就是GBK18030编码,除此之外还有GBK,GB2312,这几个编码的关系是这样的。字符必须编码后才能被计算机处理。计算机使用的缺省编码方式就是计算机的内码。早期的计算机使用7位的ASCII编码,但为了处理汉字,又设计出用于简体中文的GB2312和用于繁体中文的big5。GB2312(1980年)一共收录了7445个字符
9、,包括6763个汉字和682个其它符号。汉字区的内码范围高字节从B0-F7,低字节从A1-FE,占用的码位是72*94=6768。其中有5个空位是D7FA-D7FE。GB2312支持的汉字太少。1995年的汉字扩展规范GBK1.0收录了21886个符号,它分为汉字区和图形符号区。汉字区包括21003个字符。从ASCII、GB2312到GBK,这些编码方法是向下兼容的,即同