欢迎来到天天文库
浏览记录
ID:9010699
大小:40.00 KB
页数:6页
时间:2018-04-14
《多用编码在汉字输入中的应用研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、新型邵氏多用编码在中文信息处理中的应用研究潘虎林(甘肃省秦安县生产力促进中心秦安741600)内容提要:关键字:计算机汉字编码输入信息化是当今世界的发展潮流,是国家社会发展的趋势。信息化水平已经成为衡量一个国家现代化水平和综合国力的重要指标。汉字也是字符,与西文字符比较,汉字数量大,字形复杂,同音字多,这就给汉字在计算机内部的存储、传输、交换、输入、输出等信息处理带来了一系列的问题。为了能直接使用西文标准键盘输入汉字,必须为汉字设计相应的编码,以适应计算机处理汉字的需要。近三十年来,在众多编码人的共同努力下,汉字编码领域已是百花齐放。可是汉字输入仍然是制约中国人进入计算机领域的难题,仍然是我
2、国信息化建设的瓶颈之一。邵氏多用编码是1计算机常用中文编码的种类1.1机内码ASCII(AmericanStandardCodeforInformationInterchange美国信息互换标准代码6)是基于罗马字母表的一套电脑编码系统,它主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统,并等同于国际标准ISO646。包含控制字符、可显示字符和ASCII扩展字符集扩展在计算机的存储单元中,一个ASCII码值占一个字节(8个二进制位),其最高位(b7)用作奇偶校验位。1.2国标码GB2312字符集1.2.1又称为GB2312-80字符集,全称为《信息交换用汉字编码字符集·基本
3、集》,由原中国国家标准总局发布,1981年5月1日实施,是中国国家标准的简体中文字符集。它所收录的汉字已经覆盖99.75%的使用频率,基本满足了汉字的计算机处理需要。在中国大陆和新加坡获广泛使用。GB2312收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母,共7445个图形字符。其中包括6763个汉字,其中一级汉字3755个,二级汉字3008个。GB2312中对所收汉字进行了“分区”处理,每区含有94个汉字/符号。这种表示方式也称为区位码。它是用双字节表示的,两个字节中前面的字节为第一字节,后面的字节为第二字节。1.2.2GBK字符集是G
4、B2312的扩展(K),GBK1.0收录了21886个符号,它分为汉字区和图形符号区,汉字区包括21003个字符。GBK字符集主要扩展了繁体中文字的支持。 1.2.36GB18030的全称是GB18030-2000《信息交换用汉字编码字符集基本集的扩充》,是我国政府于2000年3月17日发布的新的汉字编码国家标准,2001年8月31日后在中国市场上发布的软件必须符合本标准。GB18030字符集标准的出台经过广泛参与和论证,来自国内外知名信息技术行业的公司,信息产业部和原国家质量技术监督局联合实施。GB18030字符集标准解决汉字、日文假名、朝鲜语和中国少数民族文字组成的大字符集计算机编码问
5、题。该标准的字符总编码空间超过150万个编码位,收录了27484个汉字,覆盖中文、日文、朝鲜语和中国少数民族文字。满足中国大陆、香港、台湾、日本和韩国等东亚地区信息交换多文种、大字量、多用途、统一编码格式的要求。并且与Unicode3.0版本兼容,填补Unicode扩展字符字汇“统一汉字扩展A”的内容。并且与以前的国家字符编码标准(GB2312,GB13000.1)兼容。GB18030标准采用单字节、双字节和四字节三种方式对字符编码。1.3Big5又称大五码,主要为香港与台湾使用,即是一个繁体字编码。每个汉字由两个字节构成,第一个字节的范围从0X81-0XFE(即129-255),共126种
6、。第二个字节的范围不连续,分别为0X40-0X7E(即64-126),0XA1-0XFE(即161-254),共157种。1.4统一码Unicode字符集6统一码是由Unicode学术学会(UnicodeConsortium)制定的字符编码系统。Unicode学术学会的成员主要是电脑软硬件厂商。Unicode与ISO有紧密的合作,Unicode可以被看作是ISO10646的实践版。因此,支持Unicode的产品也支持ISO10646。把上面概述的几种通用标准中文输入法的实现过程及方法是中文信息处理正在使用的内码,各种应用层面的汉字编码方案及其应用软件都是中文处理的外码。汉字作为世界上最长寿的
7、图形文字,则有形、音、义三个属性,简称“三0性”[1]。人们可以从汉字的三种属性中,选择一种或同时选择几种,为汉字编码。根据选用的汉字属性不同,就形成了以下不同类型的汉字输入法。常用的汉字输入方法有拼音类(微软拼音、智能狂拼、智能ABC等)、形码类(万能汉字输入、二笔码、自然码、汉王等)和五笔字形类(万能五笔、王码五笔、极品五笔、智能五笔等)。新型邵氏多用编码在汉字输入法中是形码类。由于它具有规范、易学、高效
此文档下载收益归作者所有