欢迎来到天天文库
浏览记录
ID:34763104
大小:80.13 KB
页数:3页
时间:2019-03-10
《尚文清相似度计算方法计算机应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、常见相似度计算方法的区别查询q和第j个文档的向量表示分别为q={w1,q,w2,q,…wn,q}和dj={w1,j,w2,j,…wn,j},其中n为索引项的总个数。一、内积表示文档D和查询式Q可以通过内积进行计算:[1]wkq是查询q地k个索引项的权重,wkj是文档j的第k个索引项的权重,在内积表示法中,向量空间模型直接根据文档向量与查询向量的内积的大小对文档进行排序,内积越大,文档与查询的相关度越高。对于二值向量,即wkj和wkq均为二值变量时,内积是查询式中的索引项和文档中的索引项相互匹配的数量;对于加权向量,即wkj和wkq为根据一定规格加权后的非二值变量时,内积是查询式和
2、文档中相互匹配的索引项的权重乘积之和内积的特点:内积值没有界限:不象概率值,要在(0,1)之间对长文档有利内积用于衡量有多少词项匹配成功,而不计算有多少词项匹配失败长文档包含大量独立词项,每个词项均多次出现,因此一般而言,和查询式中的词项匹配成功的可能性就会比短文档大。n二、余弦向量度量法用内积法表示查询向量和文档的相似度时,由于内积值没有界限,因此给相似度的表示和排序带来了一定的麻烦,并这样会导致在计算相似点是,长文档比短文档具有优势,而实际上文档的长短与其是否和查询相关是没有必然联系的,为了尽可能减小文档长度这个与相似度无关的因素对相似度数据的影响,人们利用向量长度对内积进行
3、归一化,得到用向量的夹角的余弦表示相似度的模型,即余弦向量度量法。这种方法比内积表示法的效果更好。余弦向量度量法中,文档dj和查询q的相似度sim(dj,q)的公式如下:[1](2)其中,wkq是查询q的第k个索引项的权重,wkj是文档j的第k个索引项的权重。在余弦向量度量中,向量空间模型根据文档向量与查询向量的夹角的夹角余弦的大小对文档进行排序,夹角余弦值越大,即两者之间夹角越小,就认为文档与查询的相似度越高。产生的相似性范围从-1到1:-1意味着两个向量指向的方向正好截然相反,1表示它们的指向是完全相同的,0通常表示它们之间是独立的,而在这之间的值则表示中度的相似性或相异性。
4、余弦相似性,可以被看作是一个规范比较文件长度的方法。在信息检索的情况下,由于一个词的频率(TF-IDF权)不能为负数,所以这两个文档的余弦相似性范围从0到1。并且,两个词的频率向量之间的角度不能大于90°。余弦相似度的特点:[2]1对用户的绝对的数值不敏感2.计算时不考虑用户之间的共同评分项数量,即使仅仅有极少相同评分项,也有可能获得很大的相似度结果3.只要各个评分项之间越趋向于对应成比例,而不论数值差异如何,则相似度越趋近于1.000.4.不受坐标轴旋转,放大缩小的影响。还有一个调整余弦相似度(AdjustedCosineSimilarity),和余弦相似度的计算不同的是,
5、X,Y在减去用户平均评分向量后再代入余弦相似度公式中计算5.余弦相似度更多的是从方向上区分差异,而对绝对的数值不敏感。更多的用于使用用户对内容评分来区分用兴趣的相似度和差异,同时修正了用户间可能存在的度量标准不统一的问题因为余弦相似度对绝对数值不敏感。注根据以上的分析余弦相似度更适合于这样一类数据的挖掘工作1.计算结果对用户数据绝对值不敏感。例如在描述用户的兴趣、喜好、或用于情感分析时。2.用户数据中的评分值其实是用户主观的评分结果。换言之,每个用户的评价标准是不一致的:有一些对于“好的”界定标准更为苛刻,而另一些则对于“好”、“不好”的界定则更为宽容。这种情况下,用余
6、弦相似度来计算用户之间的相似度或差异可以弱化度量标准不统一这一因素。三、JaccardCoefficient法这个模型与余弦向量度量法的思路有些相似,都是通过归一化内积来达到优化相似度计算的目的,对于一般的表示为关联的交集除以关联的并集,用公式表示为:[1]其值介于[0,1]之间,如果两个用户关联的物品完全相同,交集等于并集,值为1;如果没有任何关联,交集为空,值为0。在这种相似度计算方法中,文档和向量的相似度的定义如公式(3)广义Jaccard系数可以用于文档数据,并在二元属性情况下归约为Jaccard系数。广义Jaccard系数又称Tanimoto系数。(有另一种系数也称为
7、Tanimoto系数)。Jaccard是对余弦向量度量法的一种扩展,与用于计算文档类型的相似度。对于同一个文档,用此方法比用余弦向量法得到的相似度高。四.向量相似度方法对比[3]为了方便常见的相似度方法的对比,先将相似度的方法名称、参考变量和优缺点分析列于如下表中。方法名称参考变量优缺点分析夹角余弦一般向量表征两个向量之间夹角的余弦值,规范化了向量的长度,但在计算相似点时,不会放大数据对象重要部分的作用Jaccard系数二元变量不考虑(0-0)的匹配,常用来处理非对称的二元向量参
此文档下载收益归作者所有