资源描述:
《模式识别2012聚类分析.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、模式识别原理华中科技大学图像识别与人工智能研究所图像分析与智能系统研究室曹治国2012-10-612012-10-622012-10-63第2章聚类分析•聚类分析的概念•相似性测度与聚类准则•聚类算法顺序聚类算法K均值算法K中值算法模糊K均值算法层次聚类算法谱聚类算法分类Classification与聚类Clustering2012-10-65聚类的定义设X是数据集,即X{x,x,...,x}12N定义X的m聚类R,将X分割成m个集合(聚类)C1,…Cm,使其满足下面三个条件:C,i1,2,...,mimUCXii1CC,ij,i
2、,j1,2,...,mij2012-10-66聚类分析步骤FeatureSelection选择合适的特征描述样本ProximityMeasure选择合适的测度描述样本之间如何“相似”或“不相似”ClusteringCriterion选择合适的聚类准则ClusteringAlgorithm选择特定的算法,用于揭示数据集的聚类结构ValidationandInterpretationoftheResult结果的验证与判定2012-10-610为什么研究相似性测度“相似”、“不相似”依赖于聚类的类型致密型聚类、长条形聚类、球形或椭圆聚类所采用的相似度会不
3、一样2012-10-611为什么研究聚类准则羊狗猫麻雀蜥蜴青蛙蓝鲨海鸥金鱼红鲣毒蛇繁衍后代的方式金鱼红鲣麻雀蜥蜴青蛙蓝鲨海鸥羊狗猫毒蛇肺是否存在麻雀蜥蜴金鱼红鲣青蛙海鸥羊狗猫蓝鲨毒蛇生活环境2012-10-612为什么对结果需要验证判定专家知识2类还是4类?2012-10-613为什么研究聚类算法考虑聚类的数量:给定时间和资源,将集合X中的特征向量xi,i=1,…,N分到聚类中的最好办法是识别所有的划分,并根据事先确定的准则选择最可能的聚类。令S(N,m)表示将N个向量聚类到m组的所有可能结果S(N,1)=1;S(N,N)=1;当m>NS(N,m)=
4、0k令L表示N-1个向量分到k类的所有可能,k=m,m-1N1第N个向量mL或者添加到N1中的任一个成员的聚类中m1L或者对N1的每个成员形成一个新聚类S(N,m)mS(N1,m)S(N1,m1)2012-10-614为什么研究聚类算法S(N,m)mS(N1,m)S(N1,m1)上式的解为:m1miiNS(N,m)(1)Cmim!i0(该公式作为习题请课后证明)S(15,3)2375101S(20,4)4523211590168S(100,5)10!!如果要评估100个样本分到5类的所有可能聚类,计算机计算
5、每个121048聚类需要10秒,则大约年后才会得到最可判断的聚类2012-10-615为什么研究聚类算法聚类算法可以视为:通过考虑包含在X中所有可能划分集合的一小部分,就可以得到可判断聚类的方案这个结果依赖于使用的算法和准则2012-10-616第2章聚类分析•聚类分析的概念•相似性测度与聚类准则•聚类算法顺序聚类算法K均值算法K中值算法模糊K均值算法层次聚类算法谱聚类算法第2章聚类分析聚类测度不相似性测度(DissimilarityMeasure,DM)相似性测度(SimilarityMeasure,SM)对于x,y,zXd()X上不
6、相似性测度可用距离空间来度量,它必须满足:(1)d(x,y)0xy,d(x,x)0(2)d(x,y)d(y,x)(3)d(x,y)d(x,z)d(y,z)X上相似性测度可用s()来度量,它必须满足:(1)s(x,y)sxy,s(x,x)s00(2)s(x,y)s(y,x)(3)s(x,z)s(y,z)[s(x,z)s(y,z)]s(x,y)第2章聚类分析2.2模式的相似性测度一、距离测度设x(x1,x2,xn)',y(y1,y2,yn
7、)'n21/21,欧氏(Euclidean)距离:d(x,y)
8、
9、xy
10、
11、[(xiyi)]i1n2,绝对值距离:d(x,y)
12、xiyi
13、i13,切氏(Chebyshev)距离:d(x,y)max
14、xiyi
15、in4,明氏(Minkowski)距离:m1/md(x,y)[(xiyi)]i1第2章聚类分析2.2模式的相似性测度一、距离测度5,马氏(Mahalanobis)距离:设n维矢量xi,xj是矢量集{x,x,,x中的两个矢量}12m1d(x,x)(xx)'V(xx)i
16、jijij1mV(xix)(xix)'m1i11mxximi1n
17、x