探究LTR(学习排序)各方法的优劣性

探究LTR(学习排序)各方法的优劣性

ID:43967457

大小:33.00 KB

页数:5页

时间:2019-10-17

探究LTR(学习排序)各方法的优劣性_第1页
探究LTR(学习排序)各方法的优劣性_第2页
探究LTR(学习排序)各方法的优劣性_第3页
探究LTR(学习排序)各方法的优劣性_第4页
探究LTR(学习排序)各方法的优劣性_第5页
资源描述:

《探究LTR(学习排序)各方法的优劣性》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、探究LTR(学习排序)各方法的优劣性班级12052311学号12051238姓名XX2015.05.30,1/a—刖s随着互联网的快速发展,大数据时代的來临,如何对数据进行高效的分类和检索成为了一个重要的研究课题。现如今,我们网上在寻找资料的时候,一定会使用各式各样的搜索引擎。一个好的搜索引擎,能够让用户很方便快捷的找到需要的答案。那么,影响搜索引擎搜索速度和准确度的关键点在哪呢?我们都知道,搜索引擎的工作原理:先rt!网页爬虫抓取到足够多的网页;再处理这些网页,例如,捉取关键字,建立索引库和索引等;然后是根据用户输入的查询条件,在索引库中

2、快速的检出文档;最后是最关键的一步,搜索引擎中的评分函数(rankingfunction)会对每一个检出的文档进行打分,然后根据打分的结果,对这些文档进行排序,最后呈现在用户面前的,就是一个和查询条件的相关性从高到底排列的查询结果。在最后一步中,排序的结果严重影响着用户的查询体验。我们都使用过搜索引擎,而且都会有一个习惯,对于搜索引擎返冋的几I•页数据,我们只会点开前几页的搜索结果,而往往是这前几页的结果,几乎完全决定着一个搜索引擎的好坏。在搜索引擎的演变过程中,出现过很多排序方法,例如传统的人工打分排序,现在的Pointwise单文档方法

3、,Pairwise文档对方法,Listwise文档列表方法。而在这些方法中,Listwise依靠它的高性能,成为了现代搜索引擎领域研究的主流的排序方法。现如今,人们述在不断寻找更好的模型和文档评价标准,来进一步提高Listwise方法的排序效率。那么到底是什么原因让Listwise方法相较于其他方法冇如此高的先进性,以及该方法现在的瓶颈冇哪些,下面,我便开始探究。主题传统的排序方法比较简单,通过构造一个打分函数,该函数通过各个文档和用户查询的和关度井异,对文档进行排序。而影响相关度的因素有很多,例如查询词在文档中的词频信息,查询词的IDF信

4、息等等,而这些影响因数构成了打分函数的参数,对于传统的排序模型(人工标注训练数据),如果参数过多,会使得经验方法的调参非常困难。既然人工不行,于是,人们很口然的想到用机器学习来解决这个问题。因此,就产生了我们耍讨论的学习排序(LearningtoRank)。目前,学习排序方法分为3种:单文档方法、文档对方法和文档列表方法。单文档方法比较简单,该方法就像是知道两个点的坐标,确定一条直线的函数关系式一样。对于一条查询query,与其相关的文档集合为:{dlfd2f然后,对这n个(query,dj查询■文档对抽取特征并•农示成特征向量,这里用X,

5、Y,Z表示抽取出的3个特征向量。然后对于“曲线函数Score(q,d)=aX+bY+cZ+d,我们可以规定Score大于一个阀值时,认为是相关的。带入变量XXZ,由这些训练数据,可以确认出最优的常量a,b,c,d。到此,机器学习就结束了,打分函数也确定了。以后,对于新的查询和该查询的相关文档,我们就能用确定出来的打分函数来判断查询和文档的相关性。但是,这种方法有很大的局限性,因为对于不同的查询,他们的查询•文档对的特征向量可能相同,但他们的Score阀值却是不同的,就像是一个点,它位于两条线的交点上,虽然两条线上都能确定这个点,但是点在两条

6、线上的含义却是不一样的。例如:点在a线上代表着年龄标准,而在b线上却代表着身高标准。所以,这种方法是有前提的,它假设所冇的相关度是查询无关的,但事实说明了,并非如此。而且,对于Score相同的文档,也无法进行排序。文档对方法则完全对同一个查询里的文档集生成训练样本,它的主要思想是将Ranking问题形式化为二元分类问题。之所以被称为文档对方法,是因为这种机器学习方法的训练过程和训练目标,是判断任意两个文档组成的文档对<DOC1,D0C2>是否满足顺序关系,即判断是否D0C1应该排在D0C2的前面。根据人工标注的相关性得分,我们可以按照得分大

7、小顺序得到相应的文档对,将每个文档对的文档转换为特:征向量后,就形成了一个具体的训练实例。然后再由学习方法对这些实例进行学习。具体的学习方法冇很多,在此就不赘述了。虽然文档对方法不对相关度做独立假设,但这种方法仍存在功能上缺点订1)・这种方法只考虑了两个文档之间的相对位置,判断谁在谁的前面,并不考虑文档在文档列表上的位置。而在前言中我们说过,用户只会对搜索结果的前几页数据进行查看,这需要我们对文档列表的前儿页高相关性的文档再做更好的区分。(2).不同杳询的相关文档集的大小也会影响排序模型的构建结果,例如,a杳询只有10条相关文档,而b查询冇

8、10000条相关文档,那么模型几乎会忽略掉a的10条文档,使得模型对a查询的区分度不高。还有一个重要的因素也会影响文档对方法的排序性能。以RankingSVM为例,它优化的口标是

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。