论汉字编码数学原理

论汉字编码数学原理

ID:29452112

大小:91.09 KB

页数:14页

时间:2018-12-20

论汉字编码数学原理_第1页
论汉字编码数学原理_第2页
论汉字编码数学原理_第3页
论汉字编码数学原理_第4页
论汉字编码数学原理_第5页
资源描述:

《论汉字编码数学原理》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、论汉字编码数学原理论汉字编码数学原理高国鹫汉字属文字学科,计算机属自然学科,汉字编码涉及汉字及计算机,这是典型的文字学科与自然学科的交叉,因此,汉字编码属边缘学科,但是,汉字编码一旦纳入自然学科范畴,就成为数学研究的对像了。研制汉字编码,一要选择字符集,与字符集大小有关;二要确定汉字构件,所谓汉字构件,是以某种规则确定的具有组配汉字功能的笔画结构之集合,不同编码方法其构件组成也都各不相同;三要确定汉字码,所谓汉字码是表示汉字的字母组合(有的还包括数字和其它符号),汉字构件通过汉字码输入到计算机,汉字编码就是通过制定一整套规则

2、,建立汉字、构件、汉字码三种元素之间的转换关系,这里把这三种元素称为汉字编码三要素,下面用数学方法分析三要素之间的转换关系,然后对汉字编码进行科学定义,并建立汉字编码数学模型。首先介绍映射概念:已知甲、乙两个集合,如果有一个确定的法则,对于甲中的每一个元素,有乙中唯一确定的元素与它对应,那么就称这个法则是甲到乙的一个映射。汉字编码可用集合表示,这里把字符集与构件之间,或构件与汉字码之间的转换,都看作是甲、乙两个集合之间的转换关系,并把编码规则看作是一种映射,这样在汉字编码规则映射下,完成了由字符集到构件、再由构件到汉字码的转

3、换,即汉字编码,因此用映射理论描述汉字编码是恰当的。设Q为某字符集汉字集合,q为Q中汉字;F1为某种确定的与汉字有关的转换规则集合,f1为F1中条款;G为某种汉字构件集合,g为G中构件;F2为某种确定的与计算机有关的转换规则集合,f2为F2中条款,M为某种汉字码集合,m为M中汉字码。在上述设定中,集合Q、F1、G、F2、M中的个体q、f1、g、f2、m称作元素:Q={q1,q2,q3,…}、F1={f11,f12,f13,…}、G={g1,g2,g3,…}、F2={f21,f22,f23,…}、M={m1,m2,m3,…},

4、在这里,F1的作用是代表一种方法,是汉字编码所依托的对像,汉字编码用这种方法把整字拆分成汉字构件,或把笔画组合成汉字构件,因此这是连接汉字与汉字构件的过程,例如汉字按字源关系拆分成基础部件,F1代表的就是字源;F2的作用也是代表一种方法,汉字编码用这种方法把汉字构件分布到计算机键盘,因此这是连接汉字构件与计算机的过程,这包括两种方法,一是把汉字构件进行分类,把相同类别的构件分布到计算机键盘的某一区域,与键盘位置有关,而与键位的名称没有直接关系,二是按"近形"原理编码,这在确定F1时就已经考虑到了F2的问题,与字母键名称有直接

5、关系,而与键盘位置没有关系,汉字编码就是通过F1和F2把汉字与计算机连接了起来,下面对汉字编码进行定义:如果对Q中每一个q,通过F1中f1,都有G中唯一确定的g与它相对应,同时对于G中每一个g,通过F2中f2,都有M中唯一确定的m与它相对应,那么就称在规则F1和F2作用下,完成了从Q到G再到M的转换,这是由汉字到构件再到汉字码的转换,用数学表示为F1:Q→G,F2:G→M。把上述汉字编码过程归纳起来就是:汉字编码是在编码规则F(由F1、F2复合成)映射作用下,完成了由汉字Q(经构件G)到汉字码M的转换,用数学表示为F:Q→M

6、(F由F1:Q→G和F2:G→M复合成)。汉字编码用映射F:Q→M表示,这就是汉字编码数学模型,是定义在Q上,取值在M的函数,这是一种复合函数,字符集Q是常量,汉字编码就是在已知Q条件下,通过寻找F1和F2来确定Q、G、M三个元素之间相匹配的关系,在这里F1是至关重要的,汉字编码类型,难易程度、输入效率、适用范围等都与它有直接关系,是汉字编码的难点;F2比较容易实现,但也有一定技巧。函数F:Q→M的解是无穷多的,因此,汉字编码最终目标就是寻找高质量的汉字编码方案,这也是汉字编码三十年来一直在寻觅之中,因为F1对汉字编码质量起

7、着决定性作用,因此汉字编码首要任务就是寻找F1的最终解决方案,只要F1的问题解决好了,F2和其它元素就迎刃而解了。目前汉字编码有两种观点:1、汉字形码风光不再,并对任何新的编码方案失去信心,三十年汉字编码面临无果而终,汉语拼音最终将取代汉字形码。以科研院所、大专院校、新技术软件公司及网络公司为首的高科技部门是汉字编码的主力军,正对汉语拼音输入法进行全面改良,由词处理向句处理、由低智能向高智能转化,采用超大语料库,目前成绩斐然,例如谷哥输入法、搜狗输入法已相继问世。2、汉字形码莫不可测,说不定幸运会降落在谁的头上,有的甚至把易

8、经都派上了用场,为汉字编码增添了浓厚的神秘色彩。分散在全国的个体编码人是汉字编码的主力军,通过猎奇心理,总能发现一种世人尚不知晓的编码方法,或对老方法翻成新花样,经过申报专利,研究开发,寻找伙伴,筹借资金、互联网或媒体宣传,结果大多事与愿违,用户可能只是编码者本人,白白耗费掉了宝贵时间和资

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。