模式识别导论(四)

模式识别导论(四)

ID:34524107

大小:615.45 KB

页数:48页

时间:2019-03-07

模式识别导论(四)_第1页
模式识别导论(四)_第2页
模式识别导论(四)_第3页
模式识别导论(四)_第4页
模式识别导论(四)_第5页
资源描述:

《模式识别导论(四)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、模式识别导论第四讲聚类分析按距离聚类的概念模式相似性测度与聚类准则聚类算法对聚类的评价武汉大学遥感信息工程学院马洪超模式识别导论AnoldChinesesaying:物以类聚,人以群分引言没有训练样本存在,属于非监督分类。目的是将一批数据(模式)组成一些“有意义”的集合(聚类)这个思想在生物学、社会学、医学、地球科学等学科都是很常见的下面举一个生物学中的例子:设我们有下列动物:羊,狗,猫,麻雀,海鸥,小毒蛇,金鱼,红色mullet(一种小海鱼,可以吃),蓝色鲨鱼和青蛙。为将它们分成不同的类别,我们需要一定的准则。如果我们不同的准则来聚类,可以形成不同的结果,如

2、下面所示武汉大学遥感信息工程学院马洪超模式识别导论麻雀、海鸥、小羊、狗、毒蛇、金鱼、以产后代的方式分猫、鲨鱼青蛙、红mullet金鱼、红mullet、羊、麻雀、狗、海鸥以肺是否存在分鲨鱼…………羊、麻雀、金鱼、红mullet、以生活环境分狗、海鸥青蛙鲨鱼…………金鱼、麻雀、青蛙、羊、狗、鲨鱼猫红mullet海鸥、小毒蛇以产后代的方式和是否有肺联合标准来分武汉大学遥感信息工程学院马洪超模式识别导论这个例子说明两个问题:聚类在生物分类中很常见,不同的准则结果有很大的差别人类总是将获取的信息在聚类,否则,不可能处理每个信息。然后根据每个类的共同特征来表征这个类。比如当我们看见

3、草地上一条狗的时候,我们会推断它的叫声,因为狗叫声作是一个共同特征聚类过程如下:特征的选择相似性度量聚类准则聚类算法聚类评价聚类结果的解译武汉大学遥感信息工程学院马洪超模式识别导论按距离聚类的概念所谓聚类分析就是根据模式的特征空间分布,按点间距离的大小确定其相似程度,进而进行归类工作的,一般说来,可以认为每类模式都聚集在一个有代表性的或典型的模式周围,这个有代表性的模式称为聚类中心,或称为标准模式若有M个类别12M其标准模式分别为z1z2zM,任一模式x与第i类标准模式间的距离表示为武汉大学遥感信息工程学院马洪超模式识别导论tdxz

4、xzxzi1,2,M411iiii如果ij,有dd,则xiji聚类分析就是按照这种距离函数(或者更加广义的相似性度量)来进行归类处理,由于以最小距离为准则,故可以认为聚类分析的分类器是最小距离分类器22tdxzxzxz??iiiitttxx2xzzziiitt1txx2xzizizii1,2M4122武汉大学遥感信息工程学院马洪超模式识别导论不考虑无关项,上面的式子可以转化为:t1tdxxzzzi1,2,M413iiii2若ji,存在dxdx,则xiji设模式特

5、征空间为n维空间,即有tzzzzii1i2in令wzj1,2nijij1tw,zzin1ii2txxxx,112n武汉大学遥感信息工程学院马洪超模式识别导论tdxwxi1,2,M414iitwwww,ii1i2in1可见最小距离分类器是线性分类器的特殊情况武汉大学遥感信息工程学院马洪超模式识别导论模式相似性测度与聚类准则同一类模式的特征数据都是相近的或相同的,这一性质称为模式的相似性。这种相似性用什么公式来表达,也就相似性测度问题。式(4-1-1)是用距离函数来表示对相似性的度量,它是一种常用的测度。一般用于模式识别的

6、相似性测度有如下几种(1)明氏(Minkowaski)距离n维模式向量x与x之间的明氏距离为ij武汉大学遥感信息工程学院马洪超模式识别导论1mmndxi,xjxikxjk421k1当m1时,有nd1xi,xjxikxjk422k1称为“城市街坊距离”(“cityblock”distance)。当m=2时,即式(4-1-1),它又称为欧氏距离。当m时,称为切比雪夫距离(2)马氏(Mahalanobis)距离武汉大学遥感信息工程学院马洪超模式识别导论2t1dxmCxm423其中m为均值向量

7、,C为协方差矩阵欧氏距离和马氏距离之间的差别:第二类欧氏距离来说应该是属于第一类武汉大学遥感信息工程学院马洪超模式识别导论(3)向量夹角余弦txxijSx,x424ijxxij它反映了几何相似性,在模式向量具有扇形分布时常采用这种测度4Tanimoto测度txySxy425tttxxyyxy当模式特征向量各分量取0、1二值时,常采用此式武汉大学遥感信息工程学院马洪超模式识别导论二、聚类准则当采用某一相似性测度如欧氏距离对所有模式进行判别时,将距离数值计算出来,必须确定一个阈值,在

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。