欢迎来到天天文库
浏览记录
ID:26379164
大小:171.00 KB
页数:6页
时间:2018-11-26
《用字母异化和数字异化创建汉字信息属性》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、用字母异化和数字异化创建汉字信息属性高国鹫前言现代汉语词典把“相似或相同的事物逐渐变得不相似或不相同”称作异化,在中国社会发展中,汉字形成与图画异化有着密切关系,在汉字演化过程中,异化亦起到推动作用,进入信息时代,用异化创建汉字信息属性,不断丰富和完善汉字属性库,对中文信息处理技术持续发展具有重要意义。【关键词】异化字母异化数字异化汉字信息属性中文信息处理一用字母异化创建汉字信息属性1、字母异化与《汉语拼音方案》汉字和字母都有音,汉字音和字母音之间是没有渊源关系的,但拉丁字母脱离原本构词(表音)功能,用字母组合成《汉
2、语拼音方案》为汉字注音,这就是字母异化。汉字采用拉丁字母注音是一种近似关系,最初用注音字母标注,到1982年用国际音标标注。在汉字信息属性库中,汉语拼音成为字音的标准拼写形式,和音序的标准表达形式,在中文信息处理中,有95%以上的人把汉语拼音作为首选方法,汉语拼音成为中国文化走向世界的桥梁,周有光先生在纪念《汉语拼音方案》公布45周年发表文章感慨地说:“中国的汉字和罗马的字母,东西十万里,上下两千年,风马牛不相及也。想不到汉字跟字母终于缔结姻缘,两相偎依。”2、字母异化与《汉字拼形方案》汉字和字母都有形,汉字形和字母
3、形之间也是没有渊源关系的,那么拉丁字母能否脱离原本构词(表形)功能,用字母组合为汉字标形呢?根据汉字能拆能合特点,通过字母异化作用,拉丁字母也是可以为汉字标形的,最早采用这种方法的是上世纪八十年代《表形码》汉字输入技术。字母有两个特性,一是整体具有固定的排列顺序,二是个体具有固定的形体特征,在这两个特性中,前者是隐性的,后者是显性的。汉字输入法编码包括两个步骤,一是要把汉字库的字用某种汉字构件(单笔画或多笔画结构)组合表示,二是用字母(或其它符号)标注这些汉字构件形成代码,这样才能通过计算机键入这些代码达到输入汉字目
4、的。如果把英文字母的两个特性都用于输入法编码的两个步骤,那么英文字母第一个特性对应输入法编码的第一个步骤,即用于制定编码规则并确定汉字构件,英文字母第二个特性对应输入法编码的第二个步骤,即用于标注汉字构件形成代码,以上这两个步骤是相辅相成的。《表形码》只采用了字母的第二个特性编码,所以对很多构件的标注牵强附会,没有达到预期效果,但却开辟了输入法编码的一个分支。《汉字拼形方案》是在表形码基础上发展起来的,采用字母的两个特性编码:利用字母整体具有的序列特性来协调编码中产生的歧义性问题并确定了汉字构件,和利用字母个体具有的
5、形体特征来标注汉字构件并形成了代码,这就使输入法变得简单起来了,该编码方案与传统编码方案区别见表1:汉字拼形输入法与传统输入法编码方案对比表1序号内容传统输入法汉字拼形输入法1方法整字拆分笔画组合2依据主要字源主要笔顺规则表63汉字构件部件、含汉字信息形符、含字母信息4数量和大小506个部件平均笔画数4.5249个形符平均笔画数2.85信息量非全息码(小于或大于汉字笔画数)全息码(等于汉字笔画数)6码长短码、等长码(通常不超过4键)长码、不等长码(最长可达12键以上)《汉字拼形方案》(GB2312-80)总共设249
6、个汉字形符,其拼写形式(代码)见表2:《汉字拼形方案》(GB2312-80)重码(含构件字)总数为681个,占汉字总数的10.1%,见表3:汉字拼形输入法(GB2312-80)重码统计表表3重码数组数汉字个数汉字累计个数汉字累计%重码数组数汉字个数汉字累计个数汉字累计%不重码字60826082608289.9五重码字315674299.7二重码字246492657497.2六重码字16674899.8三重码字3193666798.6七重码字17675599.9四重码字1560672799.5八重码字186763100
7、.06《汉字拼形方案》(GB2312-80)码长分布曲线见图1:码长分布曲线是汉字输入法特性曲线,长期以来人们疏于对码长分布曲线的研究,是因为几乎所有输入法都是等码长,码长分布曲线是直线,研究价值不大,汉字拼形输入法是不等码长,码长分布曲线是曲线,调整码长分布曲线可起到优化方案作用,而对码长分布曲线进行系统分析研究,可探索汉字输入(包括用笔书写和计算机键盘输入)演化规律,为未来汉字简化提供理论依据。图1横坐标轴代表码长,纵坐标轴代表汉字数量,汉字采用GB2312-80字符集(含6763字),作为对比,曲线1是用笔书写
8、录入方式的码长分布曲线,相当于计算机按笔画输入汉字,特点是每次录入(书写)汉字的1个笔画;曲线2是计算机汉字拼形输入法的码长分布曲线,特点是每次录入汉字的1个形符(多笔画),因此曲线2是曲线1在信息时代的演化产物,下面简要介绍这两种码长分布曲线:曲线1码长分布离散度大,曲线平缓,码长最短为1笔画字(有5个),最长为30笔画字(有1个),汉字集中
此文档下载收益归作者所有