欢迎来到天天文库
浏览记录
ID:41233736
大小:580.51 KB
页数:41页
时间:2019-08-20
《《汉字输入编码》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第四章汉字编码技术延边大学计算机科学与技术系汉字编码的概念从广义角度看字典/词典编码方法,用于在字典和词典中的快速定位,常见的方法:部首、笔画、拼音和四角号码等从狭义角度看汉字键盘编码,用计算机键盘上的按键为汉字编码汉字编码的概念计算机通信技术领域对所处理信息的字符集符号序列的排序原则和低吗赋值方式,简称“机内码”,包括存储码、处理码、传输码等计算机键盘输入汉字的代码设计与实现,简称“外码”或“人机界面编码”,用一套字母数字代码输入汉字汉语词典常用检字方法之一,用最多5个阿拉伯数字来对汉字进行归
2、类。四角号码检字法由王云五发明,他并在1925年5月著《号码检字法》由商务印书馆出版。四角号码检字法用数字0到9表示一个汉字四角的十种笔形,有时在最后增加一位补码。四角号码编码方法横一垂二三点捺叉四插五方框六七角八八九是小点下有横变零头举例:端先取左上角0,其次取右上角2再取左下角1,最后取右下角2,端=0212。四角号码取角方法取角方法(1)一笔可以分角取号。例:以左边是一笔,上取为2,下取为7。(2)一笔的上下两段和别笔构成两种笔形的,分两角取号。例:水左边,上取1,下取9。(3)下角笔形偏
3、在一角的,按实际位置取号,缺角作0。例:妒右下角缺,取为0。(4)凡外围是“口、门(门)”的三类字,左右两下角改取里面的笔形。例:田=6040。(5)一个笔形,前角已经用过,后角作0。例:王左上角为一横,取1,右上角因为前面已经用过,所以取0。附号(1)四角号码字较多时,再取靠近右下角(第四角)上方一个笔形作“附号”,如果这一笔形已被右上角用过,则作0。(2)四角和“附号”相同的字,照各字所含横笔数目,顺序排列。取角注意项(1)角形有两单笔或一单笔一复笔的,不论高低,一律取最左或最右的笔形。(2
4、)有两复笔可取的,在上角取较高的的复笔,在下取较低的复笔。(3)当中起笔的撇,下角有他笔的,取他笔作下角,但左边起笔的撇,取撇笔作角。汉字编码的发展20世纪70年代起步阶段,拼音编码、五笔字形、自然码等,效率较低20世纪80年代中期轰轰烈烈的“大跃进”式编码活动,但没有什么发展20世纪90年代萧条期进入21世纪后将是又一个发展期,数字编码方案将占主导汉字编码中的几个概念(1)字符集/字汇和词汇字符集/字汇多/少词汇多/少特指某个编码方案编码词组的集合码元组成输入码的字符集合称为码元。如拼音码的码
5、元是“a”-“z”中的任意一个字母;纵横码的码元是“0”-“9”中的任意一个数字。纵横码的使用方法由香港殷商周忠继先生发明、推广的一套以0-9十个数字进行编码的小键盘输入法,它以片语/词组作为主要输入方式。一横二竖三点捺,叉四插五方块六,七角八八九是小,撇与左钩都是零。单字取码取码次序:左上角、右上角、左下角、右下角取大不取小有重复笔形不取有边取边有角高优先词组取码33规则:对二字词组,取每字的头3码,若不足3码,则有几码取几码,取完按数字键的9上面的“﹡”222规则:对三字词组,取每字的头2码
6、,若不足2码,则有几码取几码,同上。2112规则:对四字词组,词首尾字各取头2码,中间每字各只取头1码,同上。21111规则:对多字词组,第一字取头2码,第二至第五字各取头1码,余下若字不用取码,同上。汉字编码中的几个概念(2)码长输入码的长度称为码长。如输入码“123”的码长为3等长编码,如区位码等不等长编码,如拼音码、纵横码等单码和重码一个编码可能对应多个汉字和词组,那么这些汉字或词组称为重码。一个编码对应的汉字和词组只有一个时,称该汉字和词组为单码。汉字编码中的几个概念(3)编码空间和编码
7、效率所有可能的输入码集合,称为编码空间。编码空间的大小依赖于码元集合和码长。如某个编码方案的码元共有K个,编码采用等长码,长度为i,则编码空间大小为:C=Ki,如区位码的编码空间大小为:C=104,即10000个。编码效率简单而言是指编码的字汇/词汇除以编码空间的大小。如区位码,它的字汇大小为6763,则编码效率为6773/10000=67.73%。汉字的墒(1)——信息量的概念熵,在信息论里叫信息量。从控制论的角度来看,应叫不确定性。最简单的是只有两种可能性,非此即彼,我们以这种事物的信息量为
8、单位,叫1比特(bit)。如果可能性数目有2的n次方(N=2n),那就是n比特,即信息量等于可能性数目N的“以2为底的对数”:H=㏒2N=㏒N/㏒2。信息量应按符号的可能性(数学上叫概率大小)来计算,它是概率的负对数。平均信息量就是它们的加权平均H=-∑pi㏒pi(1≤i≤n)(pi表示第i个字母的概率)文字信号的信息量H是信号个数n的以2为底的对数:H=㏒n/㏒2。英文有26个字母,每个字母的信息量H=㏒26/㏒2=4.700。各种语言的字母的信息量法文3.98比特27个字母意大利文4.00比
此文档下载收益归作者所有