对象间的相似性ppt课件.pptx

对象间的相似性ppt课件.pptx

ID:59471796

大小:279.25 KB

页数:20页

时间:2020-09-14

对象间的相似性ppt课件.pptx_第1页
对象间的相似性ppt课件.pptx_第2页
对象间的相似性ppt课件.pptx_第3页
对象间的相似性ppt课件.pptx_第4页
对象间的相似性ppt课件.pptx_第5页
资源描述:

《对象间的相似性ppt课件.pptx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、对象间的相似性度量vicky对象间的相似性度量相似性余弦夹角简单匹配系数与JACCARD系数广义JACCARD系数相关系数相异度距离归一化的相似性=1-归一化的相异度变量的标准化计算平均绝对偏差其中计算标准化的度量值(z-score)使用平均绝对偏差往往比使用标准差更具有健壮性4夹角余弦简单匹配系数和JACCARD系数对称的二元变量不对称的二元变量常将出现概率较小的状态编码为1,将另一种状态编码为0两个都取值为0的情况成为负匹配,被认为不重要ObjectiObjectj简单匹配系数:R=(a+d)/(a+b+c+d)JACCARD系数:J=a/(a+b+c)6广义JACCARD系数

2、7相关系数欧式距离与绝对距离欧式距离绝对距离(Manhattan距离)Minkowski距离其中Minkowski距离又称距离,距离即欧式距离,距离即绝对距离。切比雪夫距离Chebyshev距离(切比雪夫距离)Chebyshev距离是Minkowski距离当时的极限。方差加权距离对标准化数据计算欧式距离时,即是方差加权距离。马氏距离其中是由各变量计算得到的协方差矩阵。考虑了变量之间的相关性。针对二元变量的距离对称的二元变量不对称的二元变量常将出现概率较小的状态编码为1,将另一种状态编码为0两个都取值为0的情况成为负匹配,被认为不重要ObjectiObjectj14二元变量距离和相似

3、性练习某个数据集现有10个二元变量,两个观测对象X和Y的取值如下:X=0101001101y=0001111001如果10个二元变量为对称二元变量,对象X和Y之间的距离是多少?简单匹配系数是多少?如果10个二元变量为非对称二元变量,对象X和Y之间的距离是多少?JACCARD系数是多少?针对标称变量的距离1.简单匹配方法m:匹配的数目,即对象i和j取值相同的变量的数目P:全部标称变量的数量2.对每个标称变量的每个取值创建一个新的二元变量,并用非对称二元变量的计算方法计算标称变量的相异度红绿蓝黄取值0100绿0010蓝……针对序数型变量的距离1.以顺序代替原值设序数变量f的第i个对象的

4、值为xif,则用它在可能取值中的顺序rif代替xif(假设f有Mf个有序状态)2.将每个rif映射到[0,1]区间3.Zif视作数值变量计算距离职称(4档):XI:助教XJ:副教授——XI:1XJ:3ZI:0ZJ:2/317针对单属性的相似度和相异度补充:对非对称变量的处理注意距离类型的选择针对混合类型变量的距离设数据集有p个变量对象i和j之间的相异度为对每个变量f:如果xif或xjf缺失,或者xif和xjf都为0,则,否则例Dist(Jack,Mary)=(1*0+0+1*1+1*1+1*(200-100)/(1000-50)+0))/(1+0+1+1+1+0)=0.526注意

5、问题不同属性的重要程度不同:加权,总权重和为1相似性在时序上的局限性与算法和工具有关20

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。