gen字符编码介绍fpv

gen字符编码介绍fpv

ID:8925414

大小:229.50 KB

页数:11页

时间:2018-04-12

gen字符编码介绍fpv_第1页
gen字符编码介绍fpv_第2页
gen字符编码介绍fpv_第3页
gen字符编码介绍fpv_第4页
gen字符编码介绍fpv_第5页
资源描述:

《gen字符编码介绍fpv》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、SDIS字符编码介绍(一)目录1.基本概念12.ASCII和ISO-885923.国标编码23.1.GB2312-8023.2.GB13000(GBK)33.3.GB18030-200044.BIG-5编码54.1.BIG-5简介54.2.BIG-5的问题75.UCS和UNICODE85.1.UCS(ISO10646)85.2.UCS-2、UCS-4和三个语言平面85.3.Unicode95.4.UTF(UTF-32、UTF-16和UTF-8)105.5.中日韩统一汉字(CJK)111.基本概念(1)字符什么是字符?

2、典型地,是字母。也可以是数字、句点、连字号、标点符号和数学符号,对于中文,也可以是汉字。还包括定义行尾和段落等的控制字符(一般不可见)。(2)编码空间和码点在设计字符集时,首先要决定所需字符的数目,并确定所需字符的清单。根据字符的数目,可以设定整数值的上限,这个整数范围称为编码空间(codespace),其中的一个特定整数称为一个码点(codepoint)。然后,为字符清单中的每个字符指定一个整数值,也就是一个码点。这样就得到一个字符集,称作编码字符集(CodedCharacterSet)。(3)编码单元在计算机系统

3、的实现中,整数以特定大小的单元表示,通常为8位(1字节),16位,或32位。在字符编码中,这样的单元称为编码单元(codeunit)。(4)单字节字符集、双字节字符集、多字节字符集在一些常用的编码中,每个字符只使用一个字节表示,称单字节字符集(single-bytecharacterset,SBCS)。这些字符集都仅限于256个字符。双字节字符集(double-byteERE--/SDIScharacterset,DBCS)用于为东亚书写系统中所使用成千上万个表意字符提供足够空间。这里的编码仍是基于字节的,不过是两个

4、字节一起表示一个单一的字符。即使在东亚,文本中也会包含小字母表中的字母,如拉丁字母表。这些字母使用单字节表示的效率会更高。因此,提出了多字节字符集(multi-bytecharacterset,MBDC),使用可变数目的字节来表示字符。多字节字符集通常与ASCII兼容,也就是说,在这种编码中,拉丁字母使用与ASCII中相同的字节来表示。一些不常用的字符可能会使用三个甚至四个字节编码。2.ASCII和ISO-8859ASCII是AmericanStandardCodeforInformationInterchange的

5、缩写,用来制订计算机中每个符号对应的代码,这也叫做计算机的内码(code)。每个ASCII码以1个字节(Byte)储存,从0到数字127代表不同的常用符号,例如大写A的ASCII码是65,小写a则是97。由于ASCII字节的七个位,最高位并不使用,所以后来又将最高的一个位也编入这套内码中,成为八个位的延伸ASCII(ExtendedASCII)码,这套内码加上了许多外文和表格等特殊符号,成为目前常用的内码。ISO-8859对ExtendedASCII做了详细的定义和规范。ASCII共有32个控制字符和94个可打印字符

6、。3.国标编码3.1.GB2312-80GB2312码是中华人民共和国国家标准汉字信息交换用编码,全称《信息交换用汉字编码字符集 基本集》,标准号为GB2312-80(GB是“国标”二字的汉语拼音缩写),由中华人民共和国国家标准总局发布,1981年5月1日实施。习惯上称国标码、GB码,或区位码。它是一个简化字汉字的编码,通行于中国大陆地区。新加坡等地也使用这一编码。GB2312-80收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母,共7445个图形字符。其中汉字以

7、外的图形字符682个,汉字6763个。GB2312-80规定,“对任意一个图形字符都采用两个字节(Byte)表示。每个字节均采用GB1988-80及GB2311-80中的七位编码表示。两个字节中前面的字节为第一字节,后面的字节为第二字节。”习惯上称第一字节为“高字节”,第二字节为“低字节”。GB2312-80将代码表分为94个区(Section),对应第一字节;每个区94个位(Position),对应第二字节。两个字节的值,分别为区号值和位号值各加32(20H)。GB2312-80规定,01~09区(原规定为1~9区

8、,为表示区位码方便起见,今改称01~09区)为符号、数字区,16~87区为汉字区。而10~15区、88~94区是有待于“ERE--/SDIS进一步标准化”的“空白位置”区域。但第10区推荐与第3区的94个图形字符(即GB1988-80中的94个图形字符)相同,字形宽度为其宽度的一半。GB2312-80把收录的汉字分成两级。第一级汉字是常用汉字,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。