资源描述:
《相似性与差异性的度量》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、相似性与差异性的度量(MeasuresofSimilarityandDissimilarity)很多数据挖掘技术都用到了相似性与差异性,如聚类(clustering),最近邻分类(nearestneighborclassification),异常侦测(anomalydetection)等。很多情况下,初始数据集并不需要立刻进行相似性或者差异性度量。这些方法可以看作是将数据转换到相似性(差异性)空间中再分析。首先,我们讨论一些基础的内容:对相似性和差异性在高层次的定义,并探讨一下它们的关系。为了方便,相近性
2、(proximity)既用来代替相似性也代替差异性。由于两个对象之间相近性是指这两个对象的相关属性在功能上(或者函数上,原文是afunctionoftheproximity)相近性,我们首先描述一下如何度量对象之间的一个属性的相近性,然后考虑对象之间多属性的相近性测量。这里的测量包括关联关系(correlation)和欧几里得距离(Euclideandistance),它们对密集型数据如时间序列(timeseries)或者二维点(twodimensionalpoints)等很有用,而Jaccard和余弦相
3、似性(cosinesimilarity)度量则对稀疏性数据,如文档等很有用。基础部分(Basic)定义(Definitions)非正式的,两个对象之间的相似性是指两个对象之间在数值上有多大的相似程度(thesimilaritybetweentwoobjectsisanumericalmeasureofthedegreetowhichthetwoobjectsarealike)。因此,相似性越高,对象之间越相像。相似性通常是非负的,介于0(没有相似性)到1(完全相似)之间。差异性则指两个对象在数值上的差异程
4、度。差异性越低,两个对象越相像。通常,用距离(distance)代替差异性,距离通常表示类别之间的差异性。差异性有时在区间[0,1]之间,有时也在0到∞之间。转换(Transformations)转换通常是把相似性转变成差异性,或者反过来也一样,也可能是把相近性度量转变成一个特定的区间中,如[0,1]。举个例子,我们有个范围在1到10的相似性,但是某个特定的算法或者软件包要求使用差异性,或者相似性只能在区间[0,1]之间。这些问题后面要使用到,且相对独立于其他细节。通常情况下,相近性度量,尤其是相似性度量
5、,定义或者转换的区间都在[0,1]之间。这样转换通常都比较直接。如两个对象之间的相似性在1(没有相似性)到10(完全相似)之间,我们可以通过转换公式s'=(s-1)/9将该区间转换成0到1之间,其中s和s’分别表示原来的相似性的值和新的相似性的值。一般的,相似性转换成[0,1]区间可以使用下面的公式:s'=(s-min_s)/(max_s-min_s)其中,max_s和min_s分别表示相似性值的最大值和最小值。同样的,差异性转换成[0,1]区间可以使用下面的公式:d'=(d-min_d)/(m
6、ax_d-min_d)但是这样的变换也会带来很多的新问题。有很多种方法可以将相近性区间映射到[0.1]之间。如果原来的相近性值在[0,∞,]之间,则需要一个非线性的变换方法,值之间的关系也在转换中也会变得不同。如用转换公式d’=d/(1+d)来变换差异性范围在0到∞之间的值。差异性:0,0.5,2,10,100,和1000将变成0,0.33,0.67,0.9,0.99,和0.999。原来差异性较大的值转变成接近1的结果,当然,这是否满足期望与应用本身有关。另外一个新问题是相近性测量结果的意义有了变化。
7、如相关关系的区间[-1,1]通过取绝对值的方式映射到[0,1]会丢掉符号的信息,这在某些应用中非常重要。将相似性转变成差异性或者反过来也是相对直接的转换。当然,这里也会遇到改变数值意义或者线性尺度变为非线性尺度等问题。[0,1]区间的相似性转变成差异性可以通过d=1-s得到。或者直接在数值上加上负号等方法。加负号的转变方法并不局限于[0,1]之间,如果有类似的区间限制可以采用如下转换等:s=1d+1,s=e-d,s=1-d-min_dmax_d-min_d一般的,任何的单调减函数都可以用来将差异性转
8、变成相似性,或者反过来也一样。转变的时候其它因素也要考虑,包括保留意义(preservingmeaning),尺度变换(distortionofscale),数据工具分析的需要(requirementsofdataanalysistools)等等。简单属性的相似性和差异性(SimilarityandDissimilaritybetweenSimpleAttributes)具有多个属性的对象之间的相近性通常是由单个属性相近性联合