字符编码与解码

ID：43771917

大小：316.24 KB

页数：27页

时间：2019-10-14

资源描述：

《字符编码与解码》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、字符编码与解码蒋刚毅字符编码方式ASCII扩展ASCIIUnicodeUTF-8GBKLittleendian和BigendianURLASCII计算机是讲英语的人发明的。英语只有26个英文字母。加上特殊符号，整个键盘不超过100个符号。所以，他们采用了一个字节表示所有符号的方式。最多能表示128个编码。ASCII码只占用了一个字节的后面7位，最前面的1位统一规定为0。上个世纪60年代，美国制定了一套字符编码，对英语字符与二进制位之间的关系，做了统一规定。这被称为ASCII码，一直沿用至今。扩展ASCII英语用128个符号编码就够了，但是用来表示其他语言，128个符号是不够的。比如，在法语中，

2、字母上方有注音符号，它就无法用ASCII码表示。于是，一些欧洲国家就决定，利用字节中闲置的最高位编入新的符号。比如，法语中的é的编码为130（二进制10000010）。这样一来，这些欧洲国家使用的编码体系，可以表示最多256个符号。不同国家的编码方式中，0—127表示的符号是一样的，不一样的只是128—255的这一段。比如，130在法语编码中代表了é，在希伯来语编码中却代表了字母Gimel(ג)，在俄语编码中又会代表另一个符号。GBK编码非英语国家使用的语言较为复杂，尤其是欧亚语系。采用多字节去编码一个字。中国的GBK编码。（兼容简繁体，简体是GB2312).使用两个字节表示一个汉字，所以理论

3、上最多可以表示256x256=65536个符号其他国家也都有自己的编码方案。计算机方言产生。Unicode可以想象，如果有一种编码，将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码，那么乱码问题就会消失。这就是Unicode，就像它的名字都表示的，这是一种所有符号的编码。Unicode当然是一个很大的集合，现在的规模可以容纳100多万个符号。每个符号的编码都不一样，比如，U+0639表示阿拉伯字母Ain，U+0041表示英语的大写字母A，U+4E25表示汉字“严”。具体的符号对应表，可以查询unicode.org。Unicode的问题需要注意的是，Unicode只是一个符号集，

4、它只规定了符号的二进制代码，却没有规定这个二进制代码应该如何存储。比如，汉字“严”的unicode是十六进制数4E25，转换成二进制数足足有15位（100111000100101），也就是说这个符号的表示至少需要2个字节。表示其他更大的符号，可能需要3个字节或者4个字节，甚至更多。这里就有两个严重的问题，第一个问题是，如何才能区别unicode和ascii？计算机怎么知道三个字节表示一个符号，而不是分别表示三个符号呢？第二个问题是，我们已经知道，英文字母只用一个字节表示就够了，如果unicode统一规定，每个符号用三个或四个字节表示，那么每个英文字母前都必然有二到三个字节是0，这对于存储来说是

5、极大的浪费，文本文件的大小会因此大出二三倍，这是无法接受的。UTF-8Unicode提供了编码方案，没有提供存储方案。于是产生了很多的编码方案。Utf-8，utf-16等。应用最广泛的，是utf-8,其他编码可以忽略了。重复一遍，这里的关系是，UTF-8是Unicode的实现方式之一UTF-8编码规则UTF-8最大的一个特点，就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度。UTF-8的编码规则很简单，只有二条：1）对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。2）

6、对于n字节的符号（n>1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。下表总结了编码规则，字母x表示可用编码的位。Unicode符号范围

7、UTF-8编码方式(十六进制)

8、（二进制）--------------------+---------------------------------------------00000000-0000007F

9、0xxxxxxx00000080-000007FF

10、110xxxxx10xxxxxx00000800-0000FFFF

11、1110xxxx10xxxxxx

12、10xxxxxx00010000-0010FFFF

13、11110xxx10xxxxxx10xxxxxx10xxxxxxLittleendian和Bigendian以汉字“严”为例，Unicode码是4E25，需要用两个字节存储，一个字节是4E，另一个字节是25。存储的时候，4E在前，25在后，就是Bigendian方式；25在前，4E在后，就是Littleendian方式。第一个字节在前，就是“大

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 27



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

字符编码与解码

字符编码与解码

相关文章

相关标签