消解中文三字长交集型分词歧义的算法

消解中文三字长交集型分词歧义的算法

ID:38108957

大小:282.13 KB

页数:4页

时间:2019-05-25

消解中文三字长交集型分词歧义的算法_第1页
消解中文三字长交集型分词歧义的算法_第2页
消解中文三字长交集型分词歧义的算法_第3页
消解中文三字长交集型分词歧义的算法_第4页
资源描述:

《消解中文三字长交集型分词歧义的算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、ISSN100020054清华大学学报(自然科学版)1999年第39卷第5期27ö34CN1122223öNJTsinghuaUniv(Sci&Tech),1999,Vol.39,No.5101~1033消解中文三字长交集型分词歧义的算法孙茂松,左正平,黄昌宁清华大学计算机科学与技术系;智能技术与系统国家重点实验室,北京100084文摘汉语自动分词在中文信息处理现实应用中占据着1词概率及词性信息在解决交集型分十分重要的位置。三字长交集型分词歧义是分词歧义的主要词歧义中的作用类型之一,在真实文本中的出现频率相当高。提出了一种针对这种分词歧义的消解算法,回避了训练代价比较高昂的词定义给定一部汉

2、语词典D及任意汉字字串性信息而仅仅利用了词的概率信息及某些具有特定性质的S3z′=ABC(A,B,C为汉字),如果满足AB

3、2⋯wm是S的可能切分结果之一分类号TP391(对应一条从起点到终点的词路径),T=t1⋯tm为词w1⋯wm的词性标记串(对应一条词性标记路径),汉语自动分词在自然语言处理应用系统中(如通常利用P(W,T)对W的似然性进行评价,并且认中文文本检索、汉字及语音识别、文语转换等)占据[1]为具有最大P(W,T)值的W为S的正确切分。S3z着十分重要的位置。虽然国内外的相关研究已有的切分自然随之而定。不少,但真正能达到实用要求的系统严格说来还没[2]将S视作一阶Markov链,则P(W,T)可用下有。困难在于:自然语言十分复杂,极富变化,很式评价:难纳入一个统一整齐的计算模型中。可能的解决之方法

4、1词概率+词性Bigram法道是:必须逐个分解出其中蕴涵的子问题,进行深P(W,T)=P(T)P(WûT)≈入、细致、有针对性的研究。m交集型分词歧义是自动分词系统遇到的主要歧7P(tiûti-1)P(wiûti)=义类型。而三字长交集型分词歧义又是交集型分词i=1mP(tiûwi)P(wi)歧义的主要类型之一。根据我们对一个1亿字汉语7P(tiûti-1)=i=1P(ti)语料库的观察,三字长交集型分词歧义就静态个数mP(tiûti-1)P(tiûwi)P(wi)而言占全部交集型分词歧义的33.29%,动态覆盖7i=1P(ti)率更占全部交集型分词歧义的49.76%。本文提出为进行比较,

5、依次忽略该式中词性和词概率信了一种解决简单有效的办法。能够满足实用系统的息,于是得到两个简化的评价公式:需要。我们已把它作为一个功能模块嵌入我们设计方法2词概率法[3]的面向非受限文本的汉语自动分词系统中。mP(W,T)=7P(wi)i=1收稿日期:1998210218方法3词性Bigram法第一作者:男,1962年生,副教授mP(tiûti-1)P(tiûwi)3基金项目:国家自然科学基金重点项目(69433010)P(W,T)=7P(ti)i=1102清华大学学报(自然科学版)1999,39(5)显然,方法1、方法3与上下文有关,方法2则处理的分词歧义产生错误)。退化为零阶Markov

6、链,与上下文无关。另外,由于建立获取词概率信息所需要的分词对每一种方法均可定义三个有效性指标。熟语料库相对容易(退一步讲,假如只有未经分词的令n1表示待处理文本中的全部分词歧义个数,生语料库,还可以直接用wi在语料库中的字串频来n2表示某种方法能够评价的分词歧义个数,n3表示近似求得P(wi),根据我们的经验,此时切分正确率该方法评价正确的分词歧义个数,则方法的适用率仅略为下降),但是引入词性信息后,需要知道词性G1、适用正确率G2、正确率G3分别为的条件概率P(tiûti-1)和每个词的词性分布概率Pn2n3n3(tiûwi),而这必须通过一个大规模的、预经人工分词G1=,G2=,G3=

7、.n1n2n1且词性标注的熟语料库才能加以训练,工作量迅猛利用了一个60万字左右的汉语熟语料库(经过增加,代价更加高昂。因此,我们认为,词性信息对解人工分词及词性标注处理),训练方法1、方法2、方决分词歧义意义不大,就一般的自然语言处理应用法3所需的各项统计参数。另外,还从该语料库中抽系统而言,简单的词概率法就已基本够用。取出全部不同的S3z共5367个,从而形成一个集合002对词概率法的进一步考察{S3z}作为本文实验

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。