相似度测度总结汇总

相似度测度总结汇总

ID:45697446

大小:2.42 MB

页数:38页

时间:2019-11-16

相似度测度总结汇总_第1页
相似度测度总结汇总_第2页
相似度测度总结汇总_第3页
相似度测度总结汇总_第4页
相似度测度总结汇总_第5页
资源描述:

《相似度测度总结汇总》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、1相似度文献总结相似度有两种基本类别:(1)客观相似度,即对象之间的相似度是对象的多维特征之间的某种函数关系,比如对象之间的欧氏距离;(2)主观相似度,即相似度是人对研究对象的认知关系,换句话说,相似度是主观认知的结果,它取决于人及其所处的环境,主观相似度符合人眼视觉需求,带有一定的模糊性[13]。1.1客观相似度客观相似度可分为距离测度、相似测度、匹配测度。它们都是衡量两对象客观上的相近程度。客观相似度满足下面的公理,假设对象A与B的相似度判别为,有:(1)自相似度是一个常量:所有对象的自相似度是一个常数,通常为1,即(2

2、)极大性:所有对象的自相似度均大于它与其他对象间的相似度,即。(3)对称性:两个对象间的相似度是对称的,即。(4)唯一性:,当且仅当。1.1.1距离测度这类测度以两个矢量矢端的距离为基础,因此距离测度值是两矢量各相应分量之差的函数。设表示两个矢量,计算二者之间距离测度的具体方式有多种,最常用的有:1.1.1.1欧氏距离:EuclideanDistance-basedSimilarity最初用于计算欧几里德空间中两个点的距离,假设x,y是n维空间的两个点,它们之间的欧几里德距离是:(1.1)当x,y是两个直方图时,该方法可称为

3、直方图匹配法。可以看出,当n=2时,欧几里德距离就是平面上两个点的距离。当用欧几里德距离表示相似度,一般采用以下公式进行转换:距离越小,相似度越大。(1.2)范围:[0,1],值越大,说明d越小,也就是距离越近,则相似度越大。说明:由于特征分量的量纲不一致,通常需要先对各分量进行标准化,使其与单位无关。欧氏距离能够体现个体数值特征的绝对差异,所以更多的用于需要从维度的数值大小中体现差异的分析。优点:简单,应用广泛缺点:没有考虑分量之间的相关性,体现单一特征的多个分量会干扰结果1.1.1.1曼哈顿距离,绝对值距离(街坊距离或M

4、anhattan距离):原理:曼哈顿距离来源于城市区块距离,是将多个维度上的距离进行求和后的结果。同欧式距离相似,都是用于多维数据空间距离的测度范围:[0,1],同欧式距离一致,值越小,说明距离值越大,相似度越大。说明:比欧式距离计算量少,性能相对高。(1.3)1.1.1.2切氏(Chebyshev)距离(棋盘距离/切比雪夫距离):切比雪夫距离起源于国际象棋中国王的走法,我们知道国际象棋国王每次只能往周围的8格中走一步,那么从棋盘中A格(x1,y1)走到B格(x2,y2)最少需要走几步?(1.3)1.1.1.1明氏(Mink

5、owski)距离/闵可夫斯基距离:(1.4)可以看出,(1.1)、(1.2)、(1.3)式实际上是(1.4)式当的特殊情况。在实际中较多地使用欧氏距离。显然,在观测量的量纲取定的条件下,两个矢量越相似,距离就越小,反之亦然。值得注意的是,在使用上述距离测度描述具体对象时,量纲选取不同会改变某特征的判断依据,即改变该特征对判断贡献的大小,严重的可造成错误分类。这是因为改变特征矢量某分量的量纲,进行比较的两个矢量的相应的两个分量的数值也将改变。若变小,则其相应的特征在距离测度中“影响作用比重”将变小,即根据其判断分类的作用变小,

6、反之将增大,这样便不能很好地反映事实。马氏(Mahalanobis)距离是不受量纲影响的。1.1.1.2马氏距离(Mahalanobis):马氏距离定义如下:设n维矢量和是矢量集中的两个矢量,它们的马氏距离d定义为(1.5)式中,。V的含义是这个矢量集的协方差矩阵的统计量。适用场合:1)度量两个服从同一分布并且协方差矩阵为C的随机变量的差异程度2)度量与某一类的均值向量的差异程度,判别样本的归属,此时为类均值向量。优点:1)独立于分量量纲2)排除了样本之间的相关性影响缺点:不同的特征不能差别对待,可能夸大弱特征1.1.1.3

7、汉明距离(HammingDistance)在信息论中,两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。换句话说,它就是将一个字符串变换成另一个字符串所需要替换的字符个数。例如:1011101与1001001之间的汉明距离是2。2143896与2233796之间的汉明距离是3。“toned”与“roses”之间的汉明距离是3。1.1.1.1巴氏距离(Bhattacharyya)巴氏距离常用于计算直方图间相似度,定义如下:(1.6)其中,x、y为归一化数据向量。Bhattacharyya系数取值在0~1之间,越

8、靠近1,表示两个模型之间相似度越高。如果,x、y向量未归一化,则巴氏系数的计算定义为:(1.7)1.1.1.2Hausdorff距离:Hausdorff距离(Hausdorffdistance,HD)是一种定义于两个点集上的最大最小距离,是描述两组点集之间的相似程度的一种量度,x、y之间的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。