【毕业设计(论文)】中文分词算法研究

【毕业设计(论文)】中文分词算法研究

ID:45748030

大小:290.36 KB

页数:34页

时间:2019-11-17

【毕业设计(论文)】中文分词算法研究_第1页
【毕业设计(论文)】中文分词算法研究_第2页
【毕业设计(论文)】中文分词算法研究_第3页
【毕业设计(论文)】中文分词算法研究_第4页
【毕业设计(论文)】中文分词算法研究_第5页
资源描述:

《【毕业设计(论文)】中文分词算法研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、毕业设计(论文)题目屮文分词算法研究专业信息与计算科学班级2006级1班学生易元平指导教师官礼和重庆交通大学2010年6月摘要IABSTRACTII第一章绪论11.1研究背景11.2研究目的、意义2第二章中文分词简介32.1问题描述32.2中文分词难点分析32.3中文分词算法研究现状42.4现有主要分词算法6241最大正向匹配法(MM)62.4.2逆向最大匹配法(RMM)62.4.3自主词算法+Viterbi搜索算法72.4.4覆盖歧义检测法+N・gmm模型8245演化算法92.5小结9第三章“MM+RMM+人机交互消歧”算法

2、123.1算法思想123.2词典库的数据结构设计133.3“MM+RMM+人机交互消歧”算法143.2.1人机交互消歧(HMI)143.2.2算法描述153.2.3算法流程图163.4算法实现17第四章实验254.1实验环境254.2实验方案254.3实验结果25致谢28参考文献29摘要中文分词是指将一个汉字序列切分成一个一个单独的词。相对于英文而言,中文词Z间没有形式上的分界符,故中文分词要比英文分词复杂的多、困难的多。中文分词是文木挖掘等中文信息处理的基础。目前,主耍的分词算法主要有:正向最大匹配(MM)、逆向最大匹配(R

3、MM)、最佳匹配、专家分词系统、神经元网络、演化算法等。本文首先对现有的经典分词算法进行了分析、归纳和总结,讨论了中文分词中一直没有完全突破的两大难题:歧义识别和新词识别。重点分析了歧义问题,并按照产生歧义的根源把歧义分成了三类。在此基础上,提出一种基于词典库监督式的中文分词算法:“MM+RMM+人机交互消歧(HMI)”算法。该算法先分别采用MM和RMM进行分词,若两者切分结果不一样,则认为该句有歧义,再采用人机交互的方式进行消歧,并把解决方案存入解决歧义方案库中保存。若以后遇到相同歧义,则分词系统会门动在解决歧义方案库中找到

4、相应的解决方案。这种监督式的分词算法学习的时间越长,其分词精度会越好。本文还用VC++/MFC实现了“MM+RMM+HMI”算法。实验结果表明:若让“MM+RMM+HMI”算法在人监督式的情况卜学习一段时间后,使其歧义解决方案库的容量达到一定程度后,再用“MM+RMM+HMI”算法分词,不仅可以在一定程度上解决切分歧义性问题,而且分词系统切分糟度也较高。【关键字】:中文分词;最大匹配;监督式学习ABSTRACTChineseWordSegmentationmeanssegmentingaChinesecharactersequ

5、enceintoindividualwords.ComparedwithEnglish,therearenotsuchformaldelimitersinChinesewordsthatChinesewordsaremorecomplicatedanddifficultthanEnglishWordSegmentation.ItisthebasisofChineseinformationprocessingintextmining,etc.Atpresent,themainsegmentationsofithaveforwar

6、dmaximummatching(MM),reversemaximummatching(RMM),bestbets,expertsegmentationsystem,neuralnetworks,evolutionaryalgorithms,etc.Atthebeginning,thispaperanalyzes,inducesandconcludesthepresentclassicalsegmentationalgorithms,anddiscussestwomajorproblems——ambiguityidentifi

7、cationandnewwordsidentification,whicharenotcompletelybrokenthroughintheChineseWordSegmentation.Moreover,thepaperanalyzesemphaticallytheproblemofambiguity,anddividesitintothreecategoriesaccordingtotherootsofthecausingambiguity.Onthesebases,thepaperintroducesaChineses

8、egmentationalgorithmbasedondictionariessupervising:HMM+RMM+human-machineinteractiondisambiguation(HMI)nalgorithm.ThealgorithmfirstusestheM

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。