资源描述:
《数学建模论文聚类分析.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、§1聚类分析将认识对象进行分类是人类认识世界的一种重要方法,比如有关世界的时间进程的究,就形成了历史学,也有关世界空间地域的研究,则形成了地理学。又如在生物学中,为了研究生物的演变,需要对生物进行分类,生物学家根据各种生物的特征,将它们归属于同的界、门、纲、目、科、属、种之中。事实上,分门别类地对事物进行研究,要远比在一个混杂多变的集合中更清晰、明了和细致,这是因为同一类事物会具有更多的近似特性。在企业的经营管理中,为了确定其目标市场,首先要进行市场细分。因为无论一个企业多么庞大和成功,它也无法满足整个
2、市场的各种需求。而市场细分,可以帮助企业找到适合自己特色,并使企业具有竞争力的分市场,将其作为自己的重点开发目标。通常,人们可以凭经验和专业知识来实现分类。而聚类分析(clusteranalyses)作为一种定量方法,将从数据分析的角度,给出一个更准确、细致的分类工具。1.1相似性度量1.1.1样本的相似性度量要用数量化的方法对事物进行分类,就必须用数量化的方法描述事物之间的相似程度。一个事物常常需要用多个变量来刻画。如果对于一群有待分类的样本点需用p个变量描述,则每个样本点可以看成是Rp空间中的一个点
3、。因此,很自然地想到可以用距离来度量样本点间的相似程度。记Ω是样本点集,距离d(⋅,⋅)是Ω×Ω→R+的一个函数,满足条件:1)d(x,y)≥0,x,y∈Ω;2)d(x,y)=0当且仅当x=y;3)d(x,y)=d(y,x),x,y∈Ω;4)d(x,y)≤d(x,z)+d(x,y),x,y,z∈Ω。这一距离的定义是我们所熟知的,它满足正定性,对称性和三角不等式。在聚类分析中,对于定量变量,最常用的是Minkowski距离当q=1,2或q→+∞时,则分别得到1)绝对值距离(1)2)欧氏距离(2)3)Che
4、byshev距离(3)在Minkowski距离中,最常用的是欧氏距离,它的主要优点是当坐标轴进行正交旋转时,欧氏距离是保持不变的。因此,如果对原坐标系进行平移和旋转变换,则变换后样本点间的距离和变换前完全相同。值得注意的是在采用Minkowski距离时,一定要采用相同量纲的变量。如果变量的量纲不同,测量值变异范围相差悬殊时,建议首先进行数据的标准化处理,然后再计算距离。在采用Minkowski距离时,还应尽可能地避免变量的多重相关性(multicollinearity)。多重相关性所造成的信息重叠,会片
5、面强调某些变量的重要性。由于Minkowski距离的这些缺点,一种改进的距离就是马氏距离,定义如下1)马氏(Mahalanobis)距离(4)其中x,y为来自p维总体Z的样本观测值,Σ为Z的协方差矩阵,实际中Σ往往是不知道的,常常需要用样本协方差来估计。马氏距离对一切线性变换是不变的,故不受量纲的影响。此外,还可采用样本相关系数、夹角余弦和其它关联性度量作为相似性度量。近年来随着数据挖掘研究的深入,这方面的新方法层出不穷。1.1.2类与类间的相似性度量如果有两个样本类1G和2G,我们可以用下面的一系列方
6、法度量它们间的距离:1)最短距离法(nearestneighbororsinglelinkagemethod)(5)它的直观意义为两个类中最近两点间的距离。2)最长距离法(farthestneighbororcompletelinkagemethod)(6)它的直观意义为两个类中最远两点间的距离。3)重心法(centroidmethod)(7)其中x,y分别为12G,G的重心。4)类平均法(groupaveragemethod)(8)它等于中两两样本点距离的平均,式中分别为中的样本点个数。5)离差平方和
7、法(sumofsquaresmethod)若记其中则定义(9)事实上,若内部点与点距离很小,则它们能很好地各自聚为一类,并且这两类又能够充分分离(即很大),这时必然有很大。因此,按定义可以认为,两类之间的距离很大。离差平方和法最初是由Ward在1936年提出,后经Orloci等人1976年发展起来的,故又称为Ward方法。1.2系统聚类法1.2.1系统聚类法的功能与特点系统聚类法是聚类分析方法中最常用的一种方法。它的优点在于可以指出由粗到细的多种分类情况,典型的系统聚类结果可由一个聚类图展示出来。例如,
8、在平面上有7个点127w,w,?,w(如图1(a)),可以用聚类图(如图1(b))来表示聚类结果。图1聚类方法示意图记聚类结果如下:当距离值为5时,分为一类距离值为分为两类:距离值为分为三类:;距离值为分为六类:距离小于分为七类,每一个点自成一类。怎样才能生成这样的聚类图呢?步骤如下:设1)计算n个样本点两两之间的距离,记为矩阵;2)首先构造n个类,每一个类中只包含一个样本点,每一类的平台高度均为零;3)合并距离最近的两类为新类,并且以这两