资源描述:
《模式识别-聚类分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、华中科技大学图像识别与人工智能研究所2021/8/141模式识别原理聚类分析2.1聚类分析的概念一、聚类分析的基本思想根据各个待分类的模式特征相似程度进行分类,相似的归为一类,不相似的归为另一类。基本内容模式相似性度量聚类算法聚类分析的概念聚类分析的基本思想根据各个待分类的模式特征相似程度进行分类,相似的归为一类,不相似的归为另一类。基本内容模式相似性度量聚类算法2021/8/1410特征量的类型物理量:直接反映特征的实际物理意义如:长度、重量、速度等。处理前需要离散化。次序量:按某种规则确定的
2、只反映特征的次序关系或等级如:产品的等级、病症的级或期。已是离散量。名义量:非数值的特征数值化标识,如男性与女性、事物的状态、种类等。需要数值化。这些特征的数值指标既无数量含义,也无次序关系,只是用数字代表各种状态。方法的有效性本质上模式特征点在特征空间中的分布情况,同类的模式特征点密集,不同类的相距较远取决于分类算法和特征点分布情况的匹配技术上1,特征选取不当使分类无效2,特征选取不足可能使不同类别的模式判为一类3,特征选取过多可能有害无益,增加分析负担4,量纲选取不当2021/8/1412x
3、1(a)12213x1x2x2(b)特征选取不当特征选取不足2021/8/1413量纲不同对聚类的影响2021/8/141414聚类准则对聚类结果的影响羊,狗,猫,鲨鱼蜥蜴,蛇,麻雀,海鸥,金鱼,青蛙(a)繁衍后代的方式金鱼,鲨鱼羊,狗,猫,蜥蜴,蛇,麻雀,海鸥,青蛙(b)肺的存在金鱼,鲨鱼羊,狗,猫,蜥蜴,蛇,麻雀,海鸥,青蛙(c)生存环境金鱼蜥蜴,蛇,麻雀,海鸥,青蛙(d)繁衍后代的方式和是否存在肺鲨鱼羊,狗,猫,2021/8/1415距离测度对聚类结果的影响数据的粗聚类是2类,细
4、聚类为4类模式相似性测度距离测度相似测度匹配测度2021/8/1416距离测度2021/8/1417欧氏(Euclidean)距离:2.绝对值距离(街区距离,Manhattan距离):3.切氏(Chebyshev)距离:4.明氏(Minkowski)距离:设5.马氏(Mahalanobis)距离:设n维矢量是矢量集中的两个矢量性质:对一切非奇异线性变换都是不变的。即,具有坐标系比例、旋转、平移不变性,并且从统计意义上尽量去掉了分量间的相关性。5.Camberra距离:该距离能克服量纲的影响,但不
5、能克服分量间的相关性。2021/8/1419马氏距离具有线性变换不变性证明:设,有非奇异线性变换:则2021/8/1420故2021/8/142121例求点和至均值点的距离。解:由题设,可得从而马氏距离它们之比达倍。若用欧氏距离,则算得的距离值相同:已知一个二维正态母体G的分布为相似性测度2021/8/14221.角度相似系数:2.相关系数:3.指数相似系数:设匹配测度2021/8/1423设为二值特征1.Tanimoto测度:2.Rao测度:3.简单匹配系数:4.Dice系数:5.Kulzin
6、sky系数2021/8/142424例设(1)Tanimoto测度(2)Rao测度(3)简单匹配测度(4)Dice系数(5)Kulzinsky系数则聚类分析2.2模式的相似性测度没有哪个测度是最好的1,简单而易于理解2,易于实现3,满足速度要求4,考虑数据的知识选择时,可考虑以下几点类的定义与类间距离类的定义定义1:集合S中任两个元素,的距离有其中h为给定的阈值,称S对于阈值h组成一类定义2:集合S中任一个元素与的距离有:k为集合S中元素的个数,h为给定的阈值,称S对于阈值h组成一类模式的特征矢
7、量作为集合中的元素定义3:集合S中,的距离有,其中h,r为给定的阈值,称S对于阈值h和r组成一类定义4:集合S中元素对于任一,存在某使距离:称S对于阈值h组成一类定义5:若将集合S任意分成两类S1,S2,这两类的距离D(S1,S2)满足,称S对于阈值h组成一类2.3类的定义与类间距离2.3.1类的定义类的划分具有人为规定性,这反映在定义的选取及参数的选择上。一个分类结果的优劣最后只能根据实际来评价,因此较多地利用研究对象的知识才能选择适当的类的定义,从而使分类结果更符合实际。类间距离一、最近距离
8、法:两个聚类和之间的最近距离为:式中表示和之间的距离如果是由和两类合并而成的,则有二、最远距离法:两个聚类和之间的最近距离为:式中表示和之间的距离如果是由和两类合并而成的,则有三、中间距离法:四、重心距离法:设和的重心分别为和,它们分别有样本和个,将和合并为,则有个样本,则它的重心为:设另一类的重心为,则它与的距离是:2021/8/1433五、平均距离两类p和q间的距离平方定义为这两类元素两两之间的平均平方距离,即设l=pq,类平均距离的递推公式为六、离差平方和法设类t的重心是,