欢迎来到天天文库
浏览记录
ID:8912397
大小:58.00 KB
页数:5页
时间:2018-04-12
《英语信源汉语信源信息熵的研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、英语信源、汉语信源及其信息熵的研究摘要英语信源和汉语信源是两种不同的自然语信源,而信息熵反映了信源的记忆长度,信源的记忆长度越长,熵就越小。只有当记忆长度为0,即信源符号间彼此没有任何依赖关系且等概率分布时,信源熵达到最大值。也就是说,信源符号相关性越强,所提供的平均信息量就越小。所以,研究这两种信源的信息熵,就可以得出每种信源中符号的相关性,和提供的平均信息量,量化的来比较两种语言。关键词英语信源汉语信源信息熵正文一、英语信源及其信息熵英语字母有26个,加上空格,共27个符号。根据熵的性质,信源的最大熵但实际上,英语中的字母并非等概率出现,字母之间还有严格的依赖关
2、系。如果我们对英语书中27个符号出现的概率加以统计,可得:27个英语字符出现的概率符号概率符号概率符号概率空格0.2S0.052Y,M0.012E0.105H0.047G0.011T0.072D0.035B0.0105O0.0654L0.029V0.008A0.063C0.023K0.003N0.059F,U0.0225X0.002I0.055M0.021J,Q0.001R0.054P0.0175Z0.001如果不考虑上述符号之间的依赖关系,即近似地认为信源是离散无记忆信源,根据离散上的定义可得按上述表格中的概率分布,随机选择英语字母排列起来,得到一个信源输出序列:
3、AI_NGAE_ITE_NNR_ASAEV_OTE_BAINTHA_HYROO_POER_SETRYGAIETRWCO…可见,这些字母完全是随机排列,毫无相关性,却不是英语单词,所以我们应该考虑字母的依赖性。为了进一步逼近实际情况,可把婴语信源近似地看作1阶,2阶,…,阶马尔可夫信源,求得相应的熵异推出,马尔可夫信源阶数越高,输出的序列越接近实际情况。当依赖关系延伸到无穷远时,信源输出就是真正的英语。所以我们求马尔可夫信源的极限熵二、汉语信源及其信息熵对于英语,字符数少,可轻松的计算出英语信源的信息熵,但是对于汉语这个中文字符极其庞大的信源,科学家们做出了大量的统计
4、与计算。方法同上面的英语信源信息熵的计算,不过计算量增加了非常多。下面是截取的一些统计资料。CCL语料库-现代汉语总字频数:307,317,060总字种数:9711字频表:的:11523375一:4140344是:3291508了:3059837在:2933070人:2827726不:2733842国:2645758有:2507415中:2182025他:2029395这:1968713我:1940875和:1872750大:1832977个:1701835上:1615128为:1607942年:1529238地:1464121来:1456483会:1445285到
5、:1353359们:1350664出:1262480要:1259098以:1240442发:1218837说:1186888时:1137791生:1133029作:1114127家:1092024对:1074655业:1018180经:1015211就:996530日:991991行:988420成:944114也:906313工:891269多:880855学:860176于:844000得:839902自:833435子:824453民:821583过:810433着:802863方:801878后:801821下:797775可:796081能:792017进
6、:780713部:779801开:747231新:746180而:742961主:741817里:735032现:730526同:727742全:723495用:718945产:713207理:712150法:709521市:708052之:705141事:685890动:683263本:681058者:680848长:677790你:677378那:676119实:670861……………………………………………………中国科学家冯志伟等人的对中文字符信息熵计算的结果是: 汉字容量:11052183049125104521112370 信息熵值:07.539.52
7、9.619.639.649.65 随着汉字容量增大,信息熵的增加趋缓;汉字增加到12370以后,不再使信息熵有明显的增加。通过数理语言学中著名的齐普夫定律(ZIPF'SLAW)核算,汉字的容量极限是12366个汉字,汉字的平均信息量是9.65比特三、英语信源和汉语信源的比较显而易见,汉语信源的信源熵远远大于英语信源的信息熵,说明英语信源的记忆长度比汉语的长,相关性比汉语信源强,非常简洁。很多人认为信源的信息熵小就一定好,但并不是这样,并不是信息熵小就好,信息熵大也有他的好处。汉语是“表意文字”,英语是“表音文字”。表意文字要求汉字拥有了一个数量庞大的字符集,但
此文档下载收益归作者所有