基于两字词簇的汉语快速自动分词算法

基于两字词簇的汉语快速自动分词算法

ID:38133088

大小:180.04 KB

页数:6页

时间:2019-05-25

基于两字词簇的汉语快速自动分词算法_第1页
基于两字词簇的汉语快速自动分词算法_第2页
基于两字词簇的汉语快速自动分词算法_第3页
基于两字词簇的汉语快速自动分词算法_第4页
基于两字词簇的汉语快速自动分词算法_第5页
资源描述:

《基于两字词簇的汉语快速自动分词算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第17卷第5期情报学报Vol.17,No,51998年10月October,1998信息处理基于两字词簇的汉语快速自动分词算法郭祥昊钟义信杨丽(北京邮电大学人工智能实验室,北京100876)(北方交通大学,北京100044)摘要本文提出了一种快速汉语自动分词算法。其主要思想是利用汉语中两字词占75%的统计规律,提出了两字词根和两字词簇的概念。算法把三音节以上的词用两字词簇来压缩处理,也就是把长词的扫描范围限定在词汇量很小的词簇内,从而不仅提高了分词速度,而且彻底解决了传统最大匹配分词算法中最大匹配词长的设定问题。另外,本文还提出了用两字词簇快速检测交叉歧义的算法

2、。本文的分词算法简洁、速度快、易于实现。关键词自然语言处理分词算法切分歧义AFastAlgorithmforChineseWordsAutomaticSegmentBasedonTwo-letters-word-familyStructureGuoXianghaoandZhongYixin(AILab,BeijingUniversityofPostandTelecommunication,Beijing100876)YangLi(CECECenter,NorthernJiaotongUniversity,Beijing100044)AbstractAfastal

3、gorithmforChinesewordsautomaticsegmentisputforwardinthispaper.Astructurecalled/two-letters-word-family0whichisthecollectionofalltheChinesewordsthatsharethesamebeginningtwolettersisintroduced.ThekeyideaofthealgorithmistocompressthewordswhichconsistofmorethanthreeChineselettersintotwo-

4、letters-word-familyandhandletogetherusinglengthchangingmaximummatchingalgorithm.Inadditiontothis,anewmethodtodetectsegmentingambigu-ousnessisalsointroduced.Keywordsnaturallanguageprocessing,Chinesewordsautomaticsegmenting,segmentingambigu-ousness.1问题的提出自动分词是汉语自然语言处理的第一步。目前,汉语自然语言处理的应

5、用系统处理对象收稿日期:1998年1月12日作者简介:郭祥昊,1970年生,博士研究生,主要研究领域为人工智能、自然语言处理。钟义信,1940年生,教授,博士生导师,主要研究领域为信息科学理论、通信理论、人工智能与人工神经网络。杨丽,1971年生,硕士研究生,研究方向为智能电子系统。5期基于两字词簇的汉语快速自动分词算法353越来越多的是大规模语料(如Internet信息搜索引擎,各种全文检索系统等),因此分词的速度和分词算法的易实现性变得相当关键。在多种分词算法中,正向最大匹配分词算法(Max-imumMatching,简称MM算法)简洁、易于实现,在实际工程

6、中应用最为广泛。但是,它是长词优先的机械匹配算法,存在着以下不足:¹速度慢。设分词词典的词条数为N,最大匹配词长为M,在词典的词条没有进行排序和索引的极端情形下,为了识别出一个两字词须平均进行(M-2)N+N/2次扫描匹配。当词条数目N比较大的时候,速度慢得难以忍受。º难以设定最大匹配词长M。M较大时,该算法的时间复杂度明显提高(见表1)。为提高速度而降低M又将使算法不能识别汉字数目大于M的词,导致切分精度降低。M取多大才合适,学术界一[1]直有争论,也是实际应用中难以处理的问题之一。»最大匹配分词方法不能发现交叉切分歧义。解决这个问题的一般方法是再进行一次逆向

7、最大匹配(ReverseMaximumMatching)分词,两者结合起来发现交叉歧义。但是这样做,算法的时间复杂度至少是MM算法的两倍。表1分词实验结果两字词根法正向MM法逆向MM法词典词条数322104244942449实际词汇数424494244942449速度1127(无歧义校正)13176(M=6)13124(M=6)(秒)2155(有歧义校正)18121(M=7)17167(M=7)9512%(无歧义校正)正确率9512%(M=7)9716%(M=7)9910%(有歧义校正)注:1)实验语料来自5人民日报6,共5484字。实验是在奔腾166微机上进行

8、的。2)歧义校正算法参考

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。