欢迎来到天天文库
浏览记录
ID:34436176
大小:179.19 KB
页数:7页
时间:2019-03-06
《汉字编码及其应用的研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、http://www.paper.edu.cn汉字编码及其应用的研究李罡、孙济洲天津大学,天津,(300072)E-mail(ligang@tju.edu.cn,jzsun@tju.edu.cn)摘要:本文针对在软件国际化与本地化过程中,处理中文时常遇到的问题的成因进行了分析,介绍了常见的字符集编码及在具体系统中实现,并给出了解决处理中文过程中常见问题的方法。关键词:汉字编码、ISO10646、Unicode、GB18030-20001.引言在信息处理日益国际化的今天,计算机软件的国际化与本地化工作显得越来越重要。可以想象,一个不能处理多国语言文字的软件,将很难在国际上推广。另外,一个国
2、外的软件,如果不能很好的做好本地化工作,那么满屏的外文,也很难让国内的用户接受。众所周知,计算机的“母语”是英语,计算机一开始就只认识英文。但是,全世界的语言文字有上百种,这还不包括一些罕用的语言与文字。为了让计算机能够处理这些语言与文字,也为了让使用非英语的人能够方便的使用计算机,就需要做大量的国际化与本地化工作。本文将针对在这个过程中常见的问题加以分析并给出解决方法。2.国际化与本地化国际化,即Internationalization。这个单词很长,因第一个字母与最后一个字母之间有18个字母,故常简写为i18n。国际化指的是一个软件所处理的信息因应当是包含各国语言和文字的,而不能仅局
3、限于英文。本地化,即Localization,因第一个字母与最后一个字母之间有10个字母,故常简写为l10n。本地化指的是将本来是其它国家语言和文字的软件,翻译成本国语言和文字,以方便本国用户使用。国际化与本地化是二个技术,但他们都面临着相同的问题,即如果处理世界上众多的语[1]言与文字。这个问题是与字符集编码有着密切的关系。[2]3.常见字符集编码3.1字符与编码字符在计算机内以编码的形式存储。所谓编码,是以固定的顺序排列字符,并以此作为记录、存贮、传递、交换的统一内部特征,这个字符排列顺序被称为“编码”。-1-http://www.paper.edu.cn3.2英文数字编码最初计算机
4、只能处理英文,英文、数字和标点符号采用的是美国的国家标准ASCII(AmericanStandardCodeforInformationInterchange)。ASCII编码进一步成为世界性的编码标准:ISO646(全名为7-bitcodedcharactersetforinformationinterchange)。时至今日,虽然一个字节(byte)的长度已经从7位(bit)增加为8位,ASCII和ISO646仍然是电脑与网络世界里重要的奠基标准。ASCII码编码长度为7位,可以提供128个编码位置(0~127)。分为二个部分:94个图形字符和34个控制字符。图形字符编码范围从33到
5、126。控制字符则编码为0~32及127。ASCII开始时采用7位编码,高位(bit-8)用于在网络传输中做奇偶校验。后来,为了表示一些常见的欧洲字符,对高位(bit-8)为1的128个码位也进行了扩展编码。8位字符集只能容纳256个字符,比如Latin-1(ISO646)包括了英语、数字、常用标点和常见的一些欧洲字符。但是它们无法很好地承担在世界范围内进行信息交换的重任,因为它们没有足够的空间来容纳其他语言上万的字符。后来,很多国家为了表示本国文字,使用2或多字节来编码,如:日语(JIS)、汉语(GB、BIG5)、韩语(KS)、印度语(ISCII)等等。3.3早期的汉字编码1980年我
6、国颁布了第一个汉字编码字符集标准,即GB2312-1980《信息交换用汉字编码字符集基本集》。该标准共收了6763个汉字及常用符号,奠定了中文信息处理的基础。GB2312-1980全称是《信息交换用汉字编码字符集基本集》,1980年发布,是中文信息处理的国家标准,在大陆及海外使用简体中文的地区(如新加坡等)是强制使用的唯一中文编码。P-Windows3.2和苹果OS就是以GB2312为基本汉字编码,Windows95/98则以GBK为基本汉字编码、但兼容支持GB2312。GB2312编码的码长为2个字节。在这个方案中,每个字符都有一个区位码。区位码由区码和位码组成,区码:01-94,位码
7、:01-94。其中01区-15区:符号区;16区-88区:汉字区。区码+160(0xA0)=国标码高位,位码+160(0xA0)=国标码低位。GB2312编码体系中,机内存储的是国标码,范围:A1A1~FEFE,其中高位A1-A9:符号区,包含682个符号;B0-F7:汉字区,包含6763个汉字。GB码共收录6763个简体汉字、682个符号,其中汉字部分:一级字3755,以拼音排序,二级字3008,以偏旁排序。该标准的制定和应用为规
此文档下载收益归作者所有