talk 5 ranking

talk 5 ranking

ID:24720212

大小:1.04 MB

页数:45页

时间:2018-11-14

talk 5 ranking_第1页
talk 5 ranking_第2页
talk 5 ranking_第3页
talk 5 ranking_第4页
talk 5 ranking_第5页
资源描述:

《talk 5 ranking》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、Talk4RankingLinDaidailiu@bit.edu.cn2012.9IntroductiontoinformationRetrievalRankedBooleanRetrievalVSM:VectorSpacemodelWhyRanking?满足布尔查询的结果文档数量可能非常多,往往会大大超过用户能够浏览的文档的数目。文档评分和排序非常重要。域索引Eg:作者中存在william且正文中存在短语gentlerain的文档域词典对域进行编码排序式布尔检索给定一个布尔查询q和一篇文档d,域加权评分方法给每个(q,d)对计算出一个[0,1]之间的得分。假定每篇

2、文档有l个域,其对应的权重分别是g1,...,gl∈[0,1]relevance(q,d)=Example每篇文档都有3个域:author、title和body,考虑查询shakespeare。有3个权重系数g1、g2和g3,它们分别对应author、title和body域。假定g1=0.2,g2=0.3,g3=0.5。如果某词出现在某文档的title和body域,那么该文档最后的总得分是0.8。权重学习给定一批训练样本(trainingexample),每个样本可以表示成一个三元组<查询q,文档d,q和d的相关性判断>利用上述训练样本集合学习到权重gi,使得利用这

3、些权重在训练集中计算到的每篇文档的得分尽量接近事先给出的相关性判断结果标注将消耗大量人力假设每篇文档只包含title和body两个域,sTl(d,q)和sBd(d,q)分别表示q是否在Title和body中。socre(d,q)=g﹒sTl(d,q)+(1-g)﹒sBd(d,q)给定训练样本集,如何确定最优的常数g?训练样本固定g,对于训练样本Φj,某个查询得分为:误差函数:总体误差:取值组合(布尔查询)STlSBdScore000011-g10g111令n01r表示当sTl(dj,qj)=0及sBd(dj,qj)=1且人工判断为相关的样本个数,而n01n表示此时人

4、工判断为不相关的样本个数。此时当sTl(dj,qj)=0及sB(dj,qj)=1的训练样本带来的误差为:写出其他3种取值的误差,总误差为:对g求导数,令其为0:n10r=0,n01n=1,n10n=1,n01r=2=(0+1)/(4)=0.25Whynotn00n,n00r,n11r,n11n?VSM:VectorSpacemodel文档必须表示成方便计算机可以处理的格式。将每个文档表示成一个向量,其中每个分量代表词项在文档中的相对重要性。D={(t1,w1),(t2,w2),…,(tN,wN)},N=

5、V

6、向量空间:一系列文档在同一向量空间中的表示。这种文档表示方

7、法被称为VSM模型它是信息检索领域一系列相关处理的基础,比如文档的评分、文档的分类及聚类等。超球体:每个词项作为VSM中的一维Example文档D包含十个词项,每个词项重要度相等。向量空间的维度为400,000。则D的向量为:V(d)={(t1,0),(t2,0.1),…(ti,0.1),…,(tN,0)}稀疏性:大量的维度权重为0仅保留权重大于0的特征:V(d)={(ti,0.1),…}V(d)={(car,0.1),(auto,0.1),(insurance,0.1)…}词袋模型(bagofwordsmodel)在VSM中,词项在文档中的出现次序被忽略,但是词项

8、的权重非常重要,这和布尔检索形成了鲜明对比。在这种情况下,文档MaryisquickerthanJohn和JohnisquickerthanMary的文档表示完全等价。Howtoweight?TFIDFTF-IDFTF(termfrequencey):如果文档或者域中词项出现的频率越高,那么该文档或者域的得分也越高。词项权重取决于该词项在文档中出现的次数:V(d)={(ti,f(tfi)),…}最简单的f为:f(tfi)=tfiDF词项频率认为所有的词项都是同等重要的.Eg:在一个有关汽车工业的文档集中,几乎所有的文档都会包含auto,此时,auto就没有区分能力。

9、一个很直接的想法就是给文档集频率较高的词项赋予较低的权重,其中文档集频率指的是词项在文档集中出现的次数。这样,便可以降低具有较高文档集频率的词项的权重。文档频率(documentfrequency)dft,它表示的是出现t的所有文档的数目。直观上说,对于查询insurance,由于包含insurance的文档只有少数,所以我们希望这些文档的得分能够得到提升。IDFDF比TF高几个数量级需要将它映射到一个较小的取值范围中去。为此,假定所有文档的数目为N,词项t的IDF(inversedocumentfrequency,逆文档频率)一个罕见词的idf往往很高,而高频

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。