欢迎来到天天文库
浏览记录
ID:37343283
大小:8.73 MB
页数:116页
时间:2019-05-22
《信息检索中与查询相关的排序学习问题研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、南开大学博士学位论文信息检索中与查询相关的排序学习问题研究姓名:李栋申请学位级别:博士专业:计算机应用技术指导教师:黄亚楼20081001摘要查询相关的排序模型学习方法,即针对训练集中包含的不同的排序特性,构造与之对应的多排序器模型,并提出相应的集成排序学习方法。信息检索的训练集会包含多个查询,而这些查询所对应的排序特性是有差别的。因此,我们对这些查询在排序特性上的差异进行分析,提出了两种排序差异度的计算方法,分别是基于分布的查询排序差异度,以及基于决策函数的查询排序差异度。然后,基于这两种差异度,我们提出了相应的多排序器训练方法,和基于多排序器的“与查询相关集成排序学习方法"。通过
2、理论和实验表明,基于集成学习的排序方法可以有效提高模型的泛化性能,同时也为与查询相关的排序预测提供了基础。随后,我们进一步提出了与查询相关的排序预测方法,即针对待预测的查询,生成近似于其排序特性的排序模型进行预测。要想达到这个目的,就必须对待预测查询的排序特性进行考量,但由于待预测的查询不包含标注数据,所以很难对它的排序特性进行直接估计,因此我们提出样本特征空间上的“排序差异尺度学习方法’’,使用机器学习的方法对查询问排序特性的差异进行差异度尺度学习。基于排序差异尺度,我们首先使用K近邻的方法在线学习适合于待预测查询的排序模型,但这种方法由于时间复杂度比较高,所以不适合一些信息检索应
3、用的要求。由此,我们又提出了基于动态集成的排序学习方法,它是以前文提出的与查询相关的集成排序学习方法为基础,通过计算待预测查询与排序器之间的排序差异尺度,来实现集成权重的动态生成,从而实现了与查询相关排序学习问题的最终目标。我们分别使用模拟数据集以及两个真实的信息检索数据集对提出的方法进行实验验证。结果表明,在信息检索中,与查询相关的排序学习方法可以有效地应对这种具有查询排序差异的排序问题,与传统的排序学习方法相比,其排序性能得到了明显的提高。关键词:信息检索排序学习与查询相关集成学习尺度学习IIAbstractAbstractAstheWorldWideWebgrowsrapidl
4、ytobecomethelargestandthemostpopularsourceofreadilyavailableinformation,itisincreasinglyimportanttobeawareofthewaystoaccessthelargevolumeofinformation.Userssubmittheirqueriestotheinformationretrieval(IR)systems,andthesystemwillranktheinformationobjectsinaccordancewiththeirrelevancewiththequery.
5、Inrecentyears,learningtorankapproachisoneofthehottestresearchtopicsininformationretrieval.Learningtorankisaclassofsupervisedleamingmethodsbasedonthetheoriesofmachinelearning,itusesthelabeleddatatotrainarankingmodelandpredictthenewdatabythetrainedmodel.However,therehavesomeproblemswhenthelearnin
6、gtorankmethodsappliedininformationretrieval.LearningtorankiSbasedonthetheoriesofmachinelearning,onthebackofitssuccesstheassumptionexists,whichis“thetrainingdatasetandbeingpredicteddatasetshouldbegeneratedfromtheindependentandidenticaldistribution'’.However,theassumptionisnotsatisfiedinIRapplica
7、tions.TherankinginstanceinIRconsistedofqueryanditsretrieveddocument,itiscalledquery—documentpairinstance,andtheseinstancearerelevantwiththequery.ThroughtheanalysisofthedatasetinIR,wecanfindthatthereiSSOmuchdifferencebetweenthedist
此文档下载收益归作者所有