欢迎来到天天文库
浏览记录
ID:35039271
大小:6.58 MB
页数:69页
时间:2019-03-16
《中文分词技术在搜索引擎中的研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号:学校代码:10426:2013110007密级学号:幸M支乂净订著息QindaoUnigiversityofScence&Technology硕±学位论文MASTERDEGREETHESIS中义分词技术在搜豪引擎中的研究与应用作者;魏光泽:刘勇指导教师计算机科学与技术学科专业:专业代码081200:_计算机通信网理论与技术:研究方向2016年06月20日中文分词技术在搜索引擎
2、中的研究与应用中文分词技术在搜索引擎中的研究与应用学位论文完成日期:指导教师签字:答辩委员会成员签字:II青岛科技大学研究生学位论文中文分词技术在搜索引擎中的研究与应用摘要中文分词是计算机进行汉语文本分析的关键技术,分词算法的好坏直接影响中文分析系统的实用性,搜索引擎是中文分词技术的重要应用之一。如何用更短的时间得到更高的分词精确度是目前的研究重点和热点。基于字符串匹配的分词算法是当前使用最为广泛的中文分词算法,而最大匹配算法是最常用的基于字符串匹配的分词算法。本文通过分析最大匹配算法的不足,结合高
3、效的双字哈希词典机制,提出基于双字哈希词长分组词典结构的正向最大匹配改进算法,分词性能明显提高;然后借用匹配过程进行歧义处理,减少错误切分;之后使用改进算法思想重新设计Lucene中的中文文本分析模块,优化搜索引擎系统。实验表明本文提出的基于双字哈希词长分组词典结构的正向最大匹配改进算法比最大匹配算法有较大性能提升。本文所做工作总结如下:1.通过对最大匹配算法的研究,分析最大匹配算法存在的3个问题,并针对每个问题提出解决办法。2.根据最大匹配算法不足改进算法流程,提高分词性能,并针对改进算法的需求设
4、计双字哈希词长分组的词典机制,提出基于双字哈希词长分组词典结构的正向最大匹配改进算法。该算法对于每一次匹配都能动态选择合适匹配初始位置和匹配长度,并能快速的对词典进行查找,减少不必要的匹配消耗,无论从分词速度还是精确度上都较传统算法有了一定提升。3.根据改进算法的匹配过程,结合最大匹配算法+回退一字法算法思想,有效消除部分交集型歧义,使分词结果更加准确。4.通过对搜索引擎知识和Lucene开发包的学习,基于Lucene搭建简单的搜索引擎系统。根据改进算法重新设计Lucene中文分析模块,提高了基于L
5、ucene的搜索引擎系统应用性能。5.对基于双字哈希词长分组词典结构的正向最大匹配改进算法进行实验评估。首先使用不同词典机制对相同语料进行分词,验证本文选取的双字哈希词典性能;然后通过使用本文改进算法及正向最大匹配算法对相同语料分别进行分词,比较结果。实验结果表明,本文提出算法在分词速度及分词精度上都优于正向最大匹配算法,达到了改进目的。关键词:中文分词搜索引擎Lucene最大匹配算法双字哈希歧义处理I青岛科技大学研究生学位论文THERESEARCHANDAPPLICATIONOFCHINESEWO
6、RDSEGMENTATIONTECHNOLOGYINSEARCHENGINEABSTRACTChinesewordssegmentationisthekeytechnologyforcomputerstocarryoutChinesetextanalysis.Therefore,whetherChinesewordsegmentationalgorithmisgoodorbadhasadirectimpactonthepracticabilityofChineseanalysissystem.Sea
7、rchengineisoneoftheimportantapplicationsofChinesewordsegmentationtechnology.Howtogethigherprecisioninshortertimeisthefocusandhotspotofcurrentrelevantresearch.Themaximummatchingmethodisthemostcommonly-usedwordsegmentationalgorithmbasedonstringmatching,w
8、hichisthemostwidely-usedChinesewordsegmentationalgorithm.Byanalyzingthedisadvantagesofmaximummatchingalgorithm,combiningwithefficientdictionarymechanismofdoublecharacterhash,thispaperproposedimprovedforwardmaximummatchingmethodbasedondo
此文档下载收益归作者所有