《相似度的计算》word版

《相似度的计算》word版

ID:22718010

大小:292.09 KB

页数:11页

时间:2018-10-31

《相似度的计算》word版_第1页
《相似度的计算》word版_第2页
《相似度的计算》word版_第3页
《相似度的计算》word版_第4页
《相似度的计算》word版_第5页
资源描述:

《《相似度的计算》word版》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、相似度计算1相似度的计算简介关于相似度的计算,现有的几种基本方法都是基于向量(Vector)的,其实也就是计算两个向量的距离,距离越近相似度越大。在推荐的场景中,在用户-物品偏好的二维矩阵中,我们可以将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度,或者将所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度。下面我们详细介绍几种常用的相似度计算方法:1.1皮尔逊相关系数(PearsonCorrelationCoefficient)皮尔逊相关系数一般用于计算两个定距变量间联系的紧密程度,它的取值在[-1,+1]之间。sx,sy是x和y的样品标准偏差。类名:PearsonCor

2、relationSimilarity原理:用来反映两个变量线性相关程度的统计量范围:[-1,1],绝对值越大,说明相关性越强,负相关对于推荐的意义小。说明:1、不考虑重叠的数量;2、如果只有一项重叠,无法计算相似性(计算过程被除数有n-1);3、如果重叠的值都相等,也无法计算相似性(标准差为0,做除数)。该相似度并不是最好的选择,也不是最坏的选择,只是因为其容易理解,在早期研究中经常被提起。使用Pearson线性相关系数必须假设数据是成对地从正态分布中取得的,并且数据至少在逻辑范畴内必须是等间距的数据。Mahout中,为皮尔森相关计算提供了一个扩展,通过增加一个枚举类型(Weighting)

3、的参数来使得重叠数也成为计算相似度的影响因子。1.1欧几里德距离(EuclideanDistance)最初用于计算欧几里德空间中两个点的距离,假设x,y是n维空间的两个点,它们之间的欧几里德距离是:可以看出,当n=2时,欧几里德距离就是平面上两个点的距离。当用欧几里德距离表示相似度,一般采用以下公式进行转换:距离越小,相似度越大。类名:EuclideanDistanceSimilarity原理:利用欧式距离d定义的相似度s,s=1/(1+d)。范围:[0,1],值越大,说明d越小,也就是距离越近,则相似度越大。说明:同皮尔森相似度一样,该相似度也没有考虑重叠数对结果的影响,同样地,Mahou

4、t通过增加一个枚举类型(Weighting)的参数来使得重叠数也成为计算相似度的影响因子。1.2Cosine相似度(CosineSimilarity)Cosine相似度被广泛应用于计算文档数据的相似度:类名:UncenteredCosineSimilarity原理:多维空间两点与所设定的点形成夹角的余弦值。范围:[-1,1],值越大,说明夹角越大,两点相距就越远,相似度就越小。说明:在数学表达中,如果对两个项的属性进行了数据中心化,计算出来的余弦相似度和皮尔森相似度是一样的,在mahout中,实现了数据中心化的过程,所以皮尔森相似度值也是数据中心化后的余弦相似度。另外在新版本中,Mahout

5、提供了UncenteredCosineSimilarity类作为计算非中心化数据的余弦相似度。1.1Spearman秩相关系数--SpearmanCorrelation类名:SpearmanCorrelationSimilarity原理:Spearman秩相关系数通常被认为是排列后的变量之间的Pearson线性相关系数。范围:{-1.0,1.0},当一致时为1.0,不一致时为-1.0。说明:计算非常慢,有大量排序。针对推荐系统中的数据集来讲,用Spearman秩相关系数作为相似度量是不合适的。1.2Tanimoto系数(TanimotoCoefficient)Tanimoto系数也称为Jac

6、card系数,是Cosine相似度的扩展,也多用于计算文档数据的相似度:类名:TanimotoCoefficientSimilarity原理:又名广义Jaccard系数,是对Jaccard系数的扩展,等式为范围:[0,1],完全重叠时为1,无重叠项时为0,越接近1说明越相似。说明:处理无打分的偏好数据。1.3对数似然相似度类名:LogLikelihoodSimilarity原理:重叠的个数,不重叠的个数,都没有的个数说明:处理无打分的偏好数据,比Tanimoto系数的计算方法更为智能。1.4曼哈顿距离类名:CityBlockSimilarity原理:曼哈顿距离的实现,同欧式距离相似,都是用于

7、多维数据空间距离的测度范围:[0,1],同欧式距离一致,值越小,说明距离值越大,相似度越大。说明:比欧式距离计算量少,性能相对高。1各相似度计算方法优缺点分析1.1基于皮尔森相关性的相似度—Pearsoncorrelation-basedsimilarity皮尔森相关系数反应了两个变量之间的线性相关程度,它的取值在[-1,1]之间。当两个变量的线性关系增强时,相关系数趋于1或-1;当一个变量增大,另一个变量也

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。