欢迎来到天天文库
浏览记录
ID:10520101
大小:1.37 MB
页数:6页
时间:2018-07-07
《系统聚类法及其应用研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、2014年6月第28卷第2期阴山学刊YINSHANACADEMICJOURNALJun.2014Vo1.28No.2系统聚类法及其应用研究*田兵(包头师范学院《阴山学刊》编辑部,内蒙古包头014030)摘要:本文介绍了系统聚类法的基本思想和常用方法以及优缺点,然后举例说明了其在具体问题中的应用。关键词:聚类分析;系统聚类法;最短距离法、最长距离法、中间距离法、类平均法、重心法、离差平方和法中图分类号:O213文献标识码:A文章编号:1004-1869(2014)02-0011-06DOI:10.13388/j.cn
2、ki.ysajs.2014.02.003聚类分析是将样本进行分类的一种统计方法。它是根据样本数据计算样本之间的距离(相似程式为:DMJ=mini∈GM,j∈GJdij度),将距离较近的样本归为同一类,不同类别的样本距离相对较远。聚类分析的内容包含十分广泛,=min{mini∈GK,j∈GJdij,mini∈GL,j∈GJdij}有系统聚类法、动态聚类法、分裂法、最优分割法、模糊聚类法、图论聚类法、聚类预报等多种方法。系统聚类法也称层次聚类,是聚类分析许多方法中用的最多的一种,其基本思想是:开始将n个样=mi
3、n{DKL,DLJ}.1.2最长距离法定义类与类之间的距离为两类最远样本间的距离,即本各自作为一类,并规定样本之间的距离和类与类DKL=maxi∈Gk,j∈GLdij之间的距离,然后将距离最近的两类合并成一个新称这种系统聚类法为最短距离法。类,计算新类与其他类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样本合并为一当某步骤类GK和GL类GJ的距离为:合并为GM后,则GM与任一类。根据所定义的类与类的距离,系统聚类法可以DMJ=max{DKL,DLJ}.分为最短距离法、最长距离法、中间距
4、离法、类平均法、重心法、离差平方和法。1.3中间距离法定义类与类之间的距离取介于上述最短距离和1常用的系统聚类法最长距离的中间距离。设某一步将GK和GL合并为1.1最短距离法GM,对于任一类GJ考虑由DKL,DLJ,DKJ为边长组成定义类与类之间的距离为两类最近样本间的距离,即的三角形,取DKL边的中线作为DMJ,由初等平面几何可知,DKL=mini∈Gk,j∈GLdijMJ=12D+KJ12D-LJ12DKLD2称这种系统聚类法为最短距离法。其中用dij.表示第i个样本与第j个样本的距离
5、,G1,G2,…表示类,DKL表示Gk与GL的距离。当某步骤类GK和GL合并为GM后,按最短距离法计算新类GM与其他类GJ的类间距离,其递推公224称这种系统聚类法为中间距离法。1.4类平均法类平均法有两种定义,一种定义方法是把类与类之间的距离定义为所有样本对之间的平均距离,*收稿日期:2014-04-12作者简介:田兵(1982-),男,山西五台人,编辑,理学硕士,研究方向:数理统计。即定义GK和GL之间的距离为1GK和GL这两类相距较近,则合并后所增加的离差平方和WM—WK—WL应较小,否则较大。于是定义GKn
6、DKL=K∑nLi∈Gk,j∈GLdij和GL之间的平方距离为其中nK和nL分别为GK和GL的样本个数,dij为GK中样本i与GL中样本j之间的距离。它的递推公式为:1KL=WM-WK-WL,D2这种系统聚类法称为离差平方和法。它的递推公式nDMJ=M∑nJi∈GM,j∈GJdij为2nJ+nK2nJ+nL2nJ2=1(∑dij+∑dij)DMJ=nJ+nMDKJ+nJ+nMDLJ-nJ+nDKL,nMnJnKi∈GK,j∈GJnLi∈GL,j∈GJGK和GL之间的平方距离也可以
7、写成MM=nDKJ+nDLJD2nKnL珋珋T珋珋另一种定义方法是定义类与类之间的平方距离KL=(xK-xL)nM(xK-xL)为样本对之间平方距离的平均值,即可见,这个距离公式与重心法的距离公式只相差一个常数。重心法的类间距与两类的样本数无D212nnKL=K∑Li∈GK,j∈GLdij,关,而离差平方和法的类间距与两类的样本数有较它的递推公式为大的关系,两个大类倾向于有较大的距离,因而不宜MMD2nK2nL2合并。这更符合聚类的实际要求。离差平方和法在MJ=nDKJ+nDLJ.许多场
8、合下优于重心法,是一种比较好的系统聚类类平均法较充分的利用了所有样本之间的信息,在很多情况下,它被认为是一种较好的系统聚类法。1.5重心法类与类之间的距离定义为它们的重心之间的Euclid距离。设GK和GL的重心分别为x珋K和x珋L,则GK和GL之间的平方距离为法,但它对异常值很敏感。2数据样本选用2010年全国各省(自治区、直
此文档下载收益归作者所有