常用汉字字符集及其关系

常用汉字字符集及其关系

ID:8822433

大小:24.93 KB

页数:6页

时间:2018-04-08

常用汉字字符集及其关系_第1页
常用汉字字符集及其关系_第2页
常用汉字字符集及其关系_第3页
常用汉字字符集及其关系_第4页
常用汉字字符集及其关系_第5页
资源描述:

《常用汉字字符集及其关系》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、常用汉字字符集及其关系GB2312(GB2312-1980)GB2312码是中华人民共和国国家汉字信息交换用编码,全称《信息交换用汉字编码字符集--基本集》,由国家标准总局发布,1981年5月1日实施,通行于大陆。新加坡等地也使用此编码。GB2312收录简化汉字及符号、字母、日文假名等共7445个图形字符,其中汉字占6763个。GB2312规定“对任意一个图形字符都采用两个字节表示,每个字节均采用七位编码表示”,习惯上称第一个字节为“高字节”,第二个字节为“低字节”。GB2312-80包含了大部

2、分常用的一、二级汉字,和9区的符号。该字符集是几乎所有的中文系统和国际化的软件都支持的中文字符集,这也是最基本的中文字符集。GB2312将代码表分为94个区(0x01—0x5e),每个区94个位(0x01-0x5e)。汉字编码高位字节的值为区号值加32(20H),低位字节的值为位号值加32(20H),因此也称为区位码。这样一来,GB2312的编码范围为2121H-777EH,与ASCII有重叠,通行方法是将GB码两个字节的最高位置1以示区别。因此,其实际编码范围是高位0xa1-0xfe,低位也是

3、0xa1-0xfe。例如第一区(01区)第一位(01位)汉字编码为:A1A1(第一个A1为01H+20H+80H,第二个A1为01H+20H+80H)。区号范围位号范围区类别字符类别个数编码范围01-09(A1-A9)01-94(A1-FE)符号、数字符号、数字A1A1—A9FE10-15(AA-AF)01-94(A1-FE)空白区AAA1—AFFE16-55(B0-D7)01-94(A1-FE)汉字一级常用汉字3755B0A1—D7FE56-87(D8-F7)01-94(A1-FE)汉字二级常

4、用汉字3008D8A1—F7FE88-94(F8-FE)01-94(A1-FE)空白区F8A1—FEFEGB2312将收录的汉字分成两级:第一级是常用汉字计3755个,置于16-55区,按汉语拼音字母/笔形顺序排列;第二级汉字是次常用汉字计3008个,置于56-87区,按部首/笔画顺序排列。故而GB2312能表示6763个汉字。GB13000(GB13000.1-1993)GB2312的发布,奠定了中文信息处理的基础。随着国际间的交流与合作的扩大,信息处理应用对字符集提出了多文种、大字量、多用途

5、的要求。1993年国际标准化组织发布了ISO/IEC10646-1《信息技术通用多八位编码字符集第一部分体系结构与基本多文种平面》。我国等同采用此标准制定了GB13000.1-1993。该标准采用了全新的多文种编码体系,收录了中、日、韩20902个汉字,是编码体系未来发展方向。由于其新的编码体系与现有多数操作系统和外部设备不兼容,所以它的实现仍需要有一个过程,目前还不能完全解决我国当前应用的迫切需要。GB13000等同于国际标准的《通用多八位编码字符集(UCS)》ISO10646.1,就是等同于

6、Unicode的标准,代码页等等的都使用UTF的一套标准。GB13000.1和ISO10646为同一体系,与工业标准Unicode3.1是兼容的。GBK(GBK-1995)为了推进Unicode的实施,同时也是为了向下兼容,即:与我国一直沿用的字符集标准GB2312完全兼容,电子部与国家技术监督局联合颁布一个新的汉字内码扩展规范:GBK。GBK在保持GB2312原貌的基础上,将其字汇扩充与ISO10646中的CJK等量,同时也包容了台湾的工业标准Big5码汉字,此外还为用户留了1894个码位的自

7、定义区,尽管它仍是CodePage(代码页)形式,但还是在原GB2312的基础上迈出了可喜的一步,成为最终向Unicode过渡的一个桥梁。这在WINDOWS95上就有所体现:WINDOWS95的内核已经Unicode化,正是由于这一点,WINDOWS95上所有GBK字库都可以完全不加修改地作为Unicode字库用于WINDOWSNT平台;只要将WINDOWS95上输入法码表存成Unicode形式,就可以用于WINDOWSNT平台。GBK作为对GB2312的扩展,在现在的windows系统中仍然使

8、用代码页CP936表示,但是同样的936的代码页跟一开始的936的代码页只支持GB2312编码不同,现在的936代码页支持GBK的编码,GBK同时也向下兼容GB2312编码。GBK的编码区间为0X8140到0XFEFE。整个码表分为5个区间,称为GBK1(A1A1-A9FE)、GBK2(B0A1-F7FE)、GBK3(8140-A0FE)、GBK4(AA40-FEA0)、GBK5(A840-A9A0).其中GBK1包括符号717个,GBK2包括GB2312汉字6763个,GBK3包括GB1300

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。