欢迎来到天天文库
浏览记录
ID:59471796
大小:279.25 KB
页数:20页
时间:2020-09-14
《对象间的相似性ppt课件.pptx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、对象间的相似性度量vicky对象间的相似性度量相似性余弦夹角简单匹配系数与JACCARD系数广义JACCARD系数相关系数相异度距离归一化的相似性=1-归一化的相异度变量的标准化计算平均绝对偏差其中计算标准化的度量值(z-score)使用平均绝对偏差往往比使用标准差更具有健壮性4夹角余弦简单匹配系数和JACCARD系数对称的二元变量不对称的二元变量常将出现概率较小的状态编码为1,将另一种状态编码为0两个都取值为0的情况成为负匹配,被认为不重要ObjectiObjectj简单匹配系数:R=(a+d)/(a+b+c+d)JACCARD系数:J=a/(a+b+c)6广义JACCARD系数
2、7相关系数欧式距离与绝对距离欧式距离绝对距离(Manhattan距离)Minkowski距离其中Minkowski距离又称距离,距离即欧式距离,距离即绝对距离。切比雪夫距离Chebyshev距离(切比雪夫距离)Chebyshev距离是Minkowski距离当时的极限。方差加权距离对标准化数据计算欧式距离时,即是方差加权距离。马氏距离其中是由各变量计算得到的协方差矩阵。考虑了变量之间的相关性。针对二元变量的距离对称的二元变量不对称的二元变量常将出现概率较小的状态编码为1,将另一种状态编码为0两个都取值为0的情况成为负匹配,被认为不重要ObjectiObjectj14二元变量距离和相似
3、性练习某个数据集现有10个二元变量,两个观测对象X和Y的取值如下:X=0101001101y=0001111001如果10个二元变量为对称二元变量,对象X和Y之间的距离是多少?简单匹配系数是多少?如果10个二元变量为非对称二元变量,对象X和Y之间的距离是多少?JACCARD系数是多少?针对标称变量的距离1.简单匹配方法m:匹配的数目,即对象i和j取值相同的变量的数目P:全部标称变量的数量2.对每个标称变量的每个取值创建一个新的二元变量,并用非对称二元变量的计算方法计算标称变量的相异度红绿蓝黄取值0100绿0010蓝……针对序数型变量的距离1.以顺序代替原值设序数变量f的第i个对象的
4、值为xif,则用它在可能取值中的顺序rif代替xif(假设f有Mf个有序状态)2.将每个rif映射到[0,1]区间3.Zif视作数值变量计算距离职称(4档):XI:助教XJ:副教授——XI:1XJ:3ZI:0ZJ:2/317针对单属性的相似度和相异度补充:对非对称变量的处理注意距离类型的选择针对混合类型变量的距离设数据集有p个变量对象i和j之间的相异度为对每个变量f:如果xif或xjf缺失,或者xif和xjf都为0,则,否则例Dist(Jack,Mary)=(1*0+0+1*1+1*1+1*(200-100)/(1000-50)+0))/(1+0+1+1+1+0)=0.526注意
5、问题不同属性的重要程度不同:加权,总权重和为1相似性在时序上的局限性与算法和工具有关20
此文档下载收益归作者所有