欢迎来到天天文库
浏览记录
ID:41111372
大小:281.46 KB
页数:33页
时间:2019-08-16
《《Java与字符集》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、编码字符集与JavaJavaWorld乱码问题根源之所在1.字符字符是抽象的最小文本单位。它没有固定的形状(可能是一个字形),而且没有值。“A”是一个字符,“€”(德国、法国和许多其他欧洲国家通用货币的标志)也是一个字符。“中”“国”这是两个汉字字符。字符仅仅代表一个符号,没有任何实际值的意义。2.字符集字符集是字符的集合。例如,汉字字符是中国人最先发明的字符,在中文、日文、韩文和越南文的书写中使用。这也说明了字符和字符集之间的关系,字符组成字符集。3.编码字符集编码字符集是一个字符集(有时候也被简
2、称位字符集),它为每一个字符分配一个唯一数字。最早的编码是iso8859-1,和ascii编码相似。但为了方便表示各种各样的语言,逐渐出现了很多标准编码。iso8859-1iso8859-1:属于单字节编码字符集,最多能表示的字符范围是0-255,应用于英文系列,除了iso8859-1以外还有其他iso8859系列的编码,这些编码都是为了满足欧洲国家语言字符的需要而设计的。GB2312/GBK/GB18030前面提到的iso8859-1最多只能表示256个字符,这对于汉字来说实在是有些抱歉,所以就有
3、了现在要介绍的汉字国标码,专门用来表示汉字,是双字节编码字符集,而英文字母和iso8859-1一致(兼容iso8859-1编码)。其中GBK编码能够用来同时表示繁体字和简体字,而GB2312只能表示简体字,GBK是兼容GB2312编码的。而GB18030-2000则是一个更复杂的字符集,采用变长字节的编码方式,能够支持更多的字符。需要注意的是中国政府要求所有在中国出售的软件必须支持GB18030。UnicodeUnicode:这是最统一的编码字符集,可以用来表示所有语言的字符,不兼容任何前面提到的编
4、码字符集。Unicode标准始终使用十六进制数字,而且在书写时在前面加上前缀“U+”,所以“A”的编码书写为“U+0041”。注意:在JAVA语言中书写时应该使用转义符‘u’表示,如charcharA=‘u0041’;这种表示方法等与charcharA=‘A’;。原因从ASCII(英文)==>西欧文字==>东欧字符集(俄文,希腊语等)==>东亚字符集(GB2312BIG5SJIS等)==>扩展字符集GBKGB18030这个发展过程基本上也反映了字符集标准的发展过程,但这么随着时间的推移,尤其是互
5、联网让跨语言的信息的交互变得越来越多的时候,太多多针对本地语言的编码标准的出现导致一个应用程序的国际化变得成本非常高。尤其是你要编写一个同时包含法文和简体中文的文档,这时候一般都会想到要是用一个通用的字符集能够显示所有语言的所有文字就好了,而且这样做应用也能够比较方便的国际化,为了达到这个目标,即使应用牺牲一些空间和程序效率也是非常值得的。UNICODE就是这样一个通用的解决方案。4.Unicode编码字符集Unicode因为必须将中、韩、日、英、法、阿拉伯……等许多国家所使用的文字都纳入,目前已经
6、包含了六万多个字符,所以Unicode使用了16个位来为字符编码。因为Unicode使用了16位编码,所以每个字符都用16位来储存或传输是很自然的事,这种储存或传输的格式称为UTF-16(一种Unicode的字符编码方案,在这里所说的UTF-16并不涉及增补字符的表示,本文将会在稍后介绍)。但是如果你使用到的字符都是西方字符,那么你一定不会想用UTF-16的格式,因为体积比8位的iso8859-1多了一倍,如此一来就必须考虑程序运行时各种字符在内存中所占空间的性能问题,这便引入了字符编码方案的概念:
7、字符编码方案是从一个或多个编码字符集到一个或多个固定宽度代码单元序列的映射。最常用的代码单元是字节,所以可以简单的认为字符编码方案是为了告诉计算机如何将编码字符集(如Unicode)映射到计算机可以识别的数据格式中,如字节。这种编码方案往往能够为他所对应的字符集在计算机处理时提供更为优化的空间以及性能上的解决方案。Unicode编码字符集有三种字符编码方案,下面将逐一介绍:UTF-32UTF-32*即将每一个Unicode编码表示为相同值的32位整数。很明显,它是内部处理最方便的表达方式,但是,如果
8、作为一般字符串表达方式,则要消耗更多的内存。显而易见,对于英文字母的表示将需要多个0字节,仅仅因为我们需要4个字节32位来表示一个Unicode字符。UTF-16UTF-16使用一个或两个未分配的16位代码单元的序列对Unicode编码进行编码。值U+0000至U+FFFF编码为一个相同值的16位单元。增补字符*编码为两个代码单元,第一个单元来自于高代理范围(U+D800至U+DBFF),第二个单元来自于低代理范围(U+DC00至U+DFFF)。这在概念上可能看起来类
此文档下载收益归作者所有