资源描述:
《编码式汉字输入法的现状与改进作者王立中》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、编码式汉字输入法的现状与改进作者王立中 此文镜像:13踢驴的头17原创摘要:经过20年的发展,原来看似无可大变的音码成就非凡,而形码却还停留在五笔字型的基础上,造成这种现状的原因很多,本文对此作了粗浅的探究并提出了改进与发展的建议。关键词:汉字编码汉字输入法形码正文:20年过去了,我们所能见到的计算机显示或打印出的汉字与英文一起由点阵变矢量又变成曲线,而录入环节的汉字却没有太大的变化,虽然有万"码"在奔腾,对于大多数使用者来说,汉字输入仍是一道难于逾越的鸿沟。用于计算机汉字输入的方式有很多种,按照输入所用的器件可粗略分为两类,即键盘输入和非键盘输入方式,其中,目前常用的非
2、键盘输入方式主要包括手写输入、语音输入和光电扫描输入等,而键盘输入主要是通过编码在标准ASCII键盘上实现的。按编码方式可分为形码、音码、音形混合码。从发展趋势上来讲,非键盘输入也许有可能取代键盘输入,但在现阶段键盘输入法仍是应用最广泛的方式。1.汉字输入法的现状1.1万"码"奔腾是一个必然的历史阶段,"万"码各有千秋,莫乱抹杀汉字的计算机处理涉及输入、传送、输出三个方面,在输入方法上的瓶颈并不是计算机本身的原因,大字盘固然是一段弯路,初期,在标准键盘上能够实现的输入法除了内码、电报一类流水码外只能用拼音,形成这种局面的原因是没有快速易学的实用的输入方法,是没有文字的理论
3、介入。朱邦复的仓颉输入法和王永民的五笔字型的出现打破了这一局面,虽然都还有这样那样的缺点,但毕竟证明了汉字输入并非不可逾越的鸿沟。此后,一大批编码方案蜂涌而起,到现在为止已达上千种,被人戏称为"万码奔腾",对这一现象大家也褒贬不一,真是"见仁见智"。作为初期的产物,尽管还存在着这样那样的缺点,仓颉和五笔字型都有着不可磨灭的历史功绩,因为它们毕竟解决了汉字输入的瓶颈问题,在当时的历史条件下,能做到那样的程度是非常难能可贵的。这些年来,挑毛病的人很多,但真正能提出切实可行的改进方案的人不多。也有很多人只知其一不知其二,对五笔字型只是简单地看过一些介绍,甚至根本就谈不上会用,挑
4、出的"毛病"也就似是而非。当然,现有各种基于字根的形码方案,包括仓颉输入法和五笔字型在内,完美的不多,形成这种局面的原因是多方面的,面对现实,我们更需要的是认真研究解决的办法,而不是说外行话,更不是说风凉话。1.2音码输入法已经成熟统计调查表明,采用拼音输入法的人要比其它输入方法的人多得多,原因很多,音码的入门难度低是一个原因,音码输入法的成熟性在此也起到了决定性的作用。音码是建立在字音特征的基础上,而在计算机的使用者中,能熟练掌握汉语拼音方案的人占绝大多数,与此相比,形码再容易学也没有这个先决基础,这无疑使音码成为他们的首选。音码固然有很多缺点,最突出的是速度慢、重码多
5、和不能录入不知道读音的字,但对于一般人来说,需要打字的时候只是上网和写文章之类的,根本不会用到不认识的字,无法录入生字这个缺点也就不存在。而随着智能整句分析和智能组词、动态造词技术的应用,重码选择的机会也越来越少,重码的缺点也就算不上缺点了。与此同时,从音码所能达到的速度来看,尽管其理论极限值很低,但实际使用的速度也能满足使用者的需求,这也是音码的使用越来越普及的客观基础。作为音码不能录入生字的补充,有人提出增设类似于现行字典查字法的"从字形查字"的办法[1],如部首查字法、笔划查字法、四角号码查字法,都可以做成输入法供操作者使用。这种做法避开了常见形码难学难记的缺点,作
6、为在用其它方法打不出来时的辅助手段是可取的。2.形码的本质2.1笔划与字根随着在标准键盘上按字形特征编码的计算机录入方式的研究和发展,浮显出层次介于笔划与单字之间的,对汉文字的构造起着主导作用的构字元素-字根,字根的提法始于王永民。尽管国家语言文字规范已经出台了一个清单,但是,关于字根的定义、关于到底哪些属于字根以至于应该叫字根还是别的称呼的问题仍在争论不休,其实,这与汉文字的构形元素到底是字根还是笔划一样,也是从不同角度看问题而已。笔划是汉文字的构形元素的最底层次,关于汉文字的构形元素是字根还是笔划,只不过是站在不同的角度看同一个问题,从更高的位置来看,只能说:笔划与字
7、根是汉文字构形元素的两个层次。目前,对字根的研究可以说比初期有了很大的进展,但这还远远不够。形码作为基于字形特征的计算机录入方式,可以是按笔划编码,但主流是按字根编码,按笔划编码只能当作一种辅助方式成为按其它方式无法录入时的补充。任何一种编码方案方法都必须符合认知规律,这是大家已经取得共识的东西,但目前流行的各种方案正是在这一点上多有欠缺,比如五笔字型的"身"、"舞"、"段"、"年"等字的编码。自从国家规范[2]出台以后,这种情形有所改变,但仍然不容乐观。2.2形码的本质就是用简单的符号序列代表复杂的符号序列我们在讨论汉字编码