毕业设计(论文)-基于规则的分词算法研究与设计

毕业设计(论文)-基于规则的分词算法研究与设计

ID:35587692

大小:324.06 KB

页数:40页

时间:2019-03-30

毕业设计(论文)-基于规则的分词算法研究与设计_第1页
毕业设计(论文)-基于规则的分词算法研究与设计_第2页
毕业设计(论文)-基于规则的分词算法研究与设计_第3页
毕业设计(论文)-基于规则的分词算法研究与设计_第4页
毕业设计(论文)-基于规则的分词算法研究与设计_第5页
资源描述:

《毕业设计(论文)-基于规则的分词算法研究与设计》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、西南科技大学本科生毕业论文III基于规则的分词算法研究与设计摘要:中文作为人类沟通交流、传递信息的主要语言工具之一,那么中文信息的处理在信息领域就显得非常重要。中文分词是中文信息处理的基本也是最重要的组成部分之一,它的成功与否直接关系到中文信息处理领域能否取得重大突破。中文分词是将中文的一段话或者一句话切分成一个一个单独的词,由于中文的词典没有明确规定词的定义,不像英文的单词之间有明确的分隔符,因此要实现中文的准确分词要比英文分词复杂得多也困难得多。目前,主要的分词算法有这么一些:正向最大匹配算法(MM)、逆向最大匹配算法(RMM)、最小切分算法、最佳匹配

2、算法等。本文先对一些常用的经典算法进行了分析与研究,然后根据任务要求,设计了一个简单的分词系统。系统主要分为三个部分:词典构造与载入、匹配词语、输出结果。本系统做出的改进有:减少了中文标点符号所引起的分词歧义;词典存储采用容器方式调入内存,提高分词效率。关键字:中文分词;词典;最大匹配西南科技大学本科生毕业论文IIIResearchingandDesigningofWordsSegmentationAlgorithmbasedonRulesAbstract:Chineseasoneofthemainlanguagetoolsforhumancommunic

3、ationandcommunicateinformation,soChineseinformationprocessingintheinformationfieldisveryimportant.TheChinesewordsegmentationisthebasicandoneofthemostimportantpartofChineseinformationprocessing,thesuccessdirectlyrelatedtoChineseinformationprocessingfieldcangetsignificantbreakthroug

4、h.TheChinesewordsegmentationisapassageintoChineseorwordscutintoasingleword,sinceChinesedictionarydefinitionoftheworddidnotmakecleararegulation,don'tlikeEnglishwordshaveclearbetweenseparator,sotoachieveChinesewordsegmentationofaccuratethanEnglishwordsegmentationismuchmorecomplexand

5、muchmoredifficult.Atpresent,themainparting-wordsarithmetichasfew:maximalmatchingalgorithm,reversemaximalmatchingalgorithm,minimumsegmentationalgorithm,optimalmatchingalgorithmandsoon.Thispaperfirsttosomecommonclassicalalgorithmsareanalyzedandstudied,accordingtothemissionrequiremen

6、ts,designasimplewordsegmentationsystem.Systemcanbedividedintothreeparts:dictionarystructureandload,matchingwords,outputtheresults.Thissystemhasmadeimprovements:reducecausedChinesepunctuationwordsegmentationambiguity;dictionarybyagelatinousmemorystoragecontainersway,improveefficien

7、cy.Keyword:Chinesewordsegmentation,dictionary,maximalmatchingalgorithm西南科技大学本科生毕业论文III目录第1章绪论11.1课题背景11.2研究目的与意义21.3课题内容31.4论文结构3第2章中文分词概述42.1中文分词的概念42.1.1中文词的特点42.1.2什么是中文分词42.1.3为什么要进行中文分词52.2中文分词技术发展现状52.2.1主要分词技术52.2.2分词难点研究62.2.3目前主要的分词系统82.2.4常用分词算法的研究92.3中文分词技术的应用112.3.1在中文

8、搜索引擎的应用112.3.2在中文信息检索的应用122.3.3在汉

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。