资源描述:
《基于字符n元模型的维吾尔文全文检索研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士研究生学位论文新疆大学论文题目(中文):基于字符N元模型的维吾尔文全文检索研究论文题目(外文):ResearchonUyghurFull-TextinformationretrievalbasedonN-gramcharactersmodel研究生姓名:许立睿学科、专业:计算机应用技术研究方向:多语种信息检索导师姓名职称:维尼拉·木沙江教授吐尔地·托合提副教授论文答辩日期2016年5月20日学位授予日期2016年6月日新疆大学硕士论文摘要在以往的维吾尔文全文检索系统中,由于维吾尔文本身构词方式及形态的灵活多样性,不可避免地需要进行词干切分,并以词干作为索引项建立索引,然而切分工具本
2、身的不足和局限性,使得对一部分的词干无法准确识别或识别错误,间接地降低了检索系统的检索效果。为了解决以上问题,本文根据维吾尔文的构词特点,通过切分适当长度的字符n-gram来构建索引,并在该索引之上建立了N元语言模型,同时在建立语言模型过程中,为了解决单个文档模型的数据稀疏问题,选取合适的平滑算法对文档语言模型和语料库语言模型分别进行优化,为使检索结果更加准确,在评分过程中采用了多个模型混合的评分策略。最后,利用Lucene开源工具实现了一个基于字符N元模型的维吾尔文全文检索系统,并通过python爬虫抓取维吾尔文新闻语料进行检索测试,测试结果表明使用参数为2000的Dirichlet
3、平滑算法的字符长度为3和字符长度为4的混合一元模型具有最好的检索效果,同时该方法较传统的方法有所提升。关键词:维吾尔文;信息检索;N元模型;平滑算法;LuceneI新疆大学硕士论文AbstractIntheconventionalUyghurinformationretrieval,duetotheflexibilityanddiversityofwordformationandshapeofUyghurtexts,systemhavetostemsegmentandindexitasanindexentry,however,theshortcomingsandlimitationso
4、fthesegmentationtoolitself,thepartofthestemisunabletoaccuratelyrecognizeoridentifyerrors,itindirectlyreducestheretrievaleffectivenessoftheretrievalsystem.Inordertosolveproblemabove,accordingtothemorphologicalfeaturesoftheUyghurlanguage,bydividingtheappropriatelengthofthecharactern-gramtoconstruc
5、tindex,thenestablishaN-gramlanguagemodelintheindexabove,atthesametime,intheprocessofbuildingalanguagemodel,inordertomakeupthedatasparseproblemofasingledocumentmodel,selecttheappropriatesmoothingalgorithmforoptimizingdocumentlanguagemodelandcorpuslanguagemodel,inordertomaketheretrievalresultmorea
6、ccurate,anumberofmodelswereusedinthescoringprocess.Finally,implementsafull-textretrievalsystembasedonthecharacteroftheUyghurn-grammodelbyusingLuceneopensourcesearchtools,andthroughpythoncrawlergetUighurnewscorpustoretrievaltest,testresultsshowthattheparametersforthe2000Dirchletsmoothingalgorithm
7、forthecharacterlengthof3andthecharacterlengthof4mixedoneelementmodelhasthebestsearchresults,atsametime,thismethodhasbetterperformancethanthetraditionalretrievalresults.Keywords:Uyghur;informationretrieval;n-gramlanguagemodel