基于词典和日志挖掘查询扩展问题的研究

基于词典和日志挖掘查询扩展问题的研究

ID:33697884

大小:3.07 MB

页数:58页

时间:2019-02-28

基于词典和日志挖掘查询扩展问题的研究_第1页
基于词典和日志挖掘查询扩展问题的研究_第2页
基于词典和日志挖掘查询扩展问题的研究_第3页
基于词典和日志挖掘查询扩展问题的研究_第4页
基于词典和日志挖掘查询扩展问题的研究_第5页
资源描述:

《基于词典和日志挖掘查询扩展问题的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要摘要在信息检索系统中,由于用户查询语句过短而导致的词不匹配、信息迷向和信息过载等问题,成为制约检索质量的主要因素之一。实践表明,根据一定的策略为原查询语句附加更多的关键词,然后把新构造的查询语句用于检索,可以有效改善检索结果的查准率和查全率,提高检索质量,这就是查询扩展。基于词典的查询扩展方法是一种行之有效的查询扩展方法,该方法以同义词典作为扩展源,根据原查询关键词给出与之相关的扩展词。但是,由于大数据量的词典一般以机器的方式生成,给出的扩展词往往含有噪音,这些不合理的噪音词会降低查询扩展的性能。为此,本文主要研究和改进了基于词典的查询

2、扩展方法,以达到降噪目的。本文应用统计语言模型,提出一种度量原查询与扩展词之间相关度的方法,把原查询与扩展词的相关度作为筛选扩展词的依据,并建立一种基于词典与日志挖掘的查询扩展处理模型。本文的研究内容主要包括以下三点:一、以二元统计语言模型为基础,建立扩展相关度计算模型j提出一种从候选扩展词中筛选合适扩展词的方法,降低查询扩展的噪音;二、利用查询日志构建二元统计语言模型,为了解决数据稀疏问题,改进了基于Good.Turing估计的数据平滑策略;三、为了使扩展相关度的计算更加准确,利用从查询日志统计得到的词频信息,提出基于似然比的二元组词间关

3、联度计算方法。实验表明,与原来基于词典的查询扩展方法比较,利用本文提出的查询扩展方法,试验系统的检索结果在查准率和查全率方面均有所提高。关键词:信息检索查询扩展统计语言模型似然比AbstractIntheinformationretrievalsystems,asaresultofthatthequeriesaretooshort,thephenomenalikewordmismatch,informationdisorientation,andinformationoverload,becomeoneofthemainreasonswhi

4、chconstraintstheimprovementofretrievalresults’quality.Thepracticesshowm矾appendingmorekeywordstotheoriginalquerybasedonthespecialstrategieswillincreasetheprecisionandtherecalloftheinformationretrievalsystem,thisiscalledqueryexpansion.Thequeryexpansion’Smethodbasedondictiona

5、ryisoneoftheeffectivemethods.ThismethodUSesdictionaryassourceofexpansionkeywords,giventheoriginalkeywords,offerssomeexpansionwordswhicharerelevantwimtheoriginalones.However,becausethelarge—scaledictionariesareusuallyproducedbyautomaticsystems,theexpansionwordsoftencontainn

6、oises,andthesenoiseswouldlowertheperformanceofqueryexpansion.Inhispaper,wemainlydiscussedandimprovedthemethodofqueryexpansionbasedondictionary.This.paperpresentsthestatisticallanguagemodel,andproposesamethodofmeasuringtherelevancebetweentheori西nalqueryandtheexpansionword.T

7、hemethodcanbeusedtoselectappropriateexpansionwords舶mthecandidateones.Moreover,weestablishedtheprocessingmodelofthequeryexpansionbasedondictionary.Thispaper’Sstudycoversthefollowingthreepoints:Firstly,basedon2-gramstatisticallanguagemodel,weestablishedthemodelofcomputingthe

8、relevancedegreeoftheexpansionword,andshowthemethodofselectingappropriateexpansionwordsfro

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。