信息检索模型风险及其评价方法研究

信息检索模型风险及其评价方法研究

ID:35044539

大小:3.29 MB

页数:51页

时间:2019-03-16

信息检索模型风险及其评价方法研究_第1页
信息检索模型风险及其评价方法研究_第2页
信息检索模型风险及其评价方法研究_第3页
信息检索模型风险及其评价方法研究_第4页
信息检索模型风险及其评价方法研究_第5页
资源描述:

《信息检索模型风险及其评价方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、信息检索模型风险及其评价方法研究AStudyofRiskandEvaluationinIRModel学科专业:计算机科学与技术研究生:郝林雪指导教师:宋大为教授天津大学计算机学院二零壹五年十一月摘要随着信息检索技术的不断发展,信息检索模型不同阶段出现的风险问题,如相关性估计中的风险,文档排序中的风险,查询扩展中的风险逐渐地被关注。研究这些风险问题的突破点是设计一种可以同时评价性能均值和模型风险的方法,量化这些风险的大小,进而再找出降低风险的策略。本文的研究重点有两个,其一是对信息检索风险评价指标的研究,具体工作是将基于偏差方差分解的风险评价指标从平均准确率(AP)一般化到其

2、他评价指标,并将该指标中的目标模型设置得更加公平无偏。另一个研究重点是如何降低信息检索模型中存在的查询扩展失败的风险。针对该问题,本文提出了一种基于知识图谱的查询扩展方法来降低检索模型的风险,即增加了查询扩展模型中与查询相关的信息来降低风险,具体做法是从知识图谱中抽取与查询相关的若干实体及实体属性作为扩展词来重构查询,更好地表达用户的信息需求;且在计算扩展词权重时,参考了投资组合理论中的收益-风险分析方法,最大化扩展词和原查询的相关性收益,同时也最小化扩展词可能带来的查询漂移的风险,更进一步控制了查询扩展中的风险。为检验本文所提出的基于偏差方差分解的风险评价方法的合理性,实

3、验部分首先利用该评价方法重新评价了TRECAdHoc(1993-1999)和WebTrack(2010-2013)两个任务上提交的模型检索结果,说明了所提评价方法对衡量模型整体性能的合理性,并利用偏差和方差对模型的有效性和稳定性之间存在的折中现象做了量化分析。接着针对本文所提基于知识图谱来降低查询扩展风险的策略,实验部分在两个网页数据集上验证了该策略的有效性,并和基于伪相关反馈的查询扩展模型(RM3)做了对比分析,实验结果表明该本文所提扩展模型在有效性和稳定性上都优于RM3。关键词:信息检索模型风险偏差方差分解查询扩展知识图谱ABSTRACTWiththedevelopme

4、ntofInformationRetrievaltechnology,theriskproblemindifferentstagesofIRmodel,suchasriskinrelevanceestimation,documentrankingandqueryexpansion.However,itisdifficulttomodeltheriskinIRbecauseofitsdiversity.Sowefirstfocusondesigninganevaluationmethodtoevaluatetheperformancemeanvalueandtheriskof

5、IRmodel,andthenfindoutthestrategiestoreducerisk.Inthispaper,westudytwoimportantproblems.Oneisaunifiedformulationbasedonthebias-variancedecompositiontoevaluatetheretrievaleffectivenessandstability.Furthermore,wegeneralizethemetrictodifferenteffectivenessevaluationsandtheirmeansanddesignanun

6、biasedtargetmodelforthemetric.Theotherishowtoreducetheriskinqueryexpansion.Inthispaper,weaimtoexploretheutilizationoftheknowledgeaboutquery-relatedentitiesandtheirpropertiesinFreebaseasasolutionfortheimprovementoftheretrievaleffectivenessandstabilityofqueryexpansion.Therelevancescorebetwee

7、neachpropertytermandthequeryismeasuredbytherisk-rewardanalysisinportfoliotheory,whichtreatspropertytermsasawholesetandisexpectedtomaximizetherewardoftherelevancescoresofpropertytermsandminimizetheriskofqueryexpansionfailureusingthesepropertyterms.Intheexperime

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。