欢迎来到天天文库
浏览记录
ID:32723592
大小:7.70 MB
页数:91页
时间:2019-02-15
《基于机器学习查询优化的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、复旦大学博士学位论文基于机暑摘要揭.-5.N户的检索需求是文本检索中重要的研究课题。当前有诸多问题函待解决,例如有些查询“词不达义”,致使相关文档因为和查询词不匹配所以无法被检索出来;有时,多个查询词之间需要“分清主次”,这样就需要系统给各个查询词赋予权重,以示区别;再比如“相关反馈”探讨如何利用直接或间接的反馈信息来优化查询。本文以优化用户的查询为目标,以机器学习算法的研究为核心展开研究工作。针对上述的问题从三个方面展开研究,(1)基于监督学习的查询扩展方法;(2)基于线性分类器的查询词权重估计方法
2、(3)基于受限化聚类的相关反馈。首先,针对查询词和相关文档不匹配的问题,本文提出了基于监督学习的查询扩展方法,即训练有监督模型来挑选扩展词的方法。这种方法的优点在于综合了扩展词的各种特征,因而能更准确地-/7.,54出扩展词的好坏。由于用于扩展词挑选的训练数据难于获得,作者进而提出了利用检索结果评价集自动生成训练数据的方法,并对训练数据进行了细致的分析,从而指导模型的训练过程。该方法在多组标准评测数据上获得了良好的性能,提升幅度高于传统的查询扩展方法。其次,针对信息检索中查询的杈重设置问题,本文从机器
3、学习的角度提出一套概率分类的框架,把查询的权重估计任务转化为有监督学习模型中的参数估计任务,并且采用生成式和判别式两种模型去估计查询词的权重。在TREC标准测试集合上的实验结果表明无论是生成式模型或者是判别式模型,都能使检索系统的性能获得显著的提升。最后,本文对用户提供的显式反馈信息进行研究,引入受限化聚类的算法,把用户的显式反馈信息作为文档聚类的限制条件,使系统获得更多高质量的伪相关文档,从而产生一个更好的查询。作者不仅在传统的标准评测数据上进行模拟实验,同时也在获得用户真实反馈的情况下,在大规模的
4、数据集(ClueWeb09)上进行实验,这些实验的结果都一致地展示了受限化聚类算法在相关反馈中的重要作用。中图分类号:TPl81关键字:查询扩展;查询优化;机器学习;相关反馈;受限化聚类Abstract7FodiscloseUSerS’informationneedisanimportantresearchtopicintextretrieval.Manyproblemsneedtobedeeplyexplored,forexample,the”vocabularyproblem”meansthatt
5、hetruerelevantdocumentsarenotretrievedsincethosedocumentsmismatchthequeryterm.Sometimes,differentkeywordsinaqueryarenotequallyimportant,whichrequirestheretrievalsystemtoassignallappropriateweighttoeachqueryterm.Andanotherproblemisthe”relevancefeedback”,
6、whichexploreshowtousetheexplicitandimplicitrelevancefeedbacktorefinethequery.Thisthesisisfocusedonhowtoreformulatetheusers’querybyputtingthemachinelearningalgorithmasthecoreintheresearchwork.Theauthorwouldliketostudytheproblemsdescribedabovefromthreedif
7、ferentaspects,whichis(1)theQueryExpansionmethodbasedonsupervisedleaming,(2)thequerytermweightassignmentmethodbasedonlinearclassificationmodel,(3)theContrainedClusteringalgorithmdesignedforintergratingtheexplicitrelevancefeedbackinformation.First,todealw
8、iththeproblemthatthequerytermmismatchestherelevantdocument,theauthorproposesthequeryexpansionapproachbasedonmachinelearning,whichtrainsasupervisedmodeltoselecttheexpansionwords.TheadvantageofthismethodiStheabilitytointergratevari
此文档下载收益归作者所有