基于字符n元模型的维吾尔文全文检索研究

基于字符n元模型的维吾尔文全文检索研究

ID:35064094

大小:2.45 MB

页数:59页

时间:2019-03-17

基于字符n元模型的维吾尔文全文检索研究_第1页
基于字符n元模型的维吾尔文全文检索研究_第2页
基于字符n元模型的维吾尔文全文检索研究_第3页
基于字符n元模型的维吾尔文全文检索研究_第4页
基于字符n元模型的维吾尔文全文检索研究_第5页
资源描述:

《基于字符n元模型的维吾尔文全文检索研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士研究生学位论文新疆大学论文题目(中文):基于字符N元模型的维吾尔文全文检索研究论文题目(外文):ResearchonUyghurFull-TextinformationretrievalbasedonN-gramcharactersmodel研究生姓名:许立睿学科、专业:计算机应用技术研究方向:多语种信息检索导师姓名职称:维尼拉·木沙江教授吐尔地·托合提副教授论文答辩日期2016年5月20日学位授予日期2016年6月日新疆大学硕士论文摘要在以往的维吾尔文全文检索系统中,由于维吾尔文本身构词方式及形态的灵活多样性,不可避免地需要进行词干切分,并以词干作为索引项建立索引,然而切分工具本

2、身的不足和局限性,使得对一部分的词干无法准确识别或识别错误,间接地降低了检索系统的检索效果。为了解决以上问题,本文根据维吾尔文的构词特点,通过切分适当长度的字符n-gram来构建索引,并在该索引之上建立了N元语言模型,同时在建立语言模型过程中,为了解决单个文档模型的数据稀疏问题,选取合适的平滑算法对文档语言模型和语料库语言模型分别进行优化,为使检索结果更加准确,在评分过程中采用了多个模型混合的评分策略。最后,利用Lucene开源工具实现了一个基于字符N元模型的维吾尔文全文检索系统,并通过python爬虫抓取维吾尔文新闻语料进行检索测试,测试结果表明使用参数为2000的Dirichlet

3、平滑算法的字符长度为3和字符长度为4的混合一元模型具有最好的检索效果,同时该方法较传统的方法有所提升。关键词:维吾尔文;信息检索;N元模型;平滑算法;LuceneI新疆大学硕士论文AbstractIntheconventionalUyghurinformationretrieval,duetotheflexibilityanddiversityofwordformationandshapeofUyghurtexts,systemhavetostemsegmentandindexitasanindexentry,however,theshortcomingsandlimitationso

4、fthesegmentationtoolitself,thepartofthestemisunabletoaccuratelyrecognizeoridentifyerrors,itindirectlyreducestheretrievaleffectivenessoftheretrievalsystem.Inordertosolveproblemabove,accordingtothemorphologicalfeaturesoftheUyghurlanguage,bydividingtheappropriatelengthofthecharactern-gramtoconstruc

5、tindex,thenestablishaN-gramlanguagemodelintheindexabove,atthesametime,intheprocessofbuildingalanguagemodel,inordertomakeupthedatasparseproblemofasingledocumentmodel,selecttheappropriatesmoothingalgorithmforoptimizingdocumentlanguagemodelandcorpuslanguagemodel,inordertomaketheretrievalresultmorea

6、ccurate,anumberofmodelswereusedinthescoringprocess.Finally,implementsafull-textretrievalsystembasedonthecharacteroftheUyghurn-grammodelbyusingLuceneopensourcesearchtools,andthroughpythoncrawlergetUighurnewscorpustoretrievaltest,testresultsshowthattheparametersforthe2000Dirchletsmoothingalgorithm

7、forthecharacterlengthof3andthecharacterlengthof4mixedoneelementmodelhasthebestsearchresults,atsametime,thismethodhasbetterperformancethanthetraditionalretrievalresults.Keywords:Uyghur;informationretrieval;n-gramlanguagemodel

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。