资源描述:
《《多元统计》课程实验报告-聚类分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、《多元统计与程序设计》课程实验报告项目名称:聚类分析学生姓名:学生学号:指导教师:完成日期:1实验内容(1)掌握聚类分析的思想和计算步骤;(2)会使用Matlab实现对样本进行聚类分析;2模型建立与求解2.1聚类分析的形成思路众所周知,同类事物具有很强的相似性,因此文件我们可以用相似性统计量这个度量标准作为事物分类的依据。一种等价的说法时同类事物之间的距离应很小,因此我们也可以用距离统计量作为分类的依据。分类就是把各种属性差异比较小的样品合在一类。在分类之前,我们必须对所需要分类的事物进行定量的特征变量提取。我们要求这些特征变量能全面地反映样品的各种属性,且
2、在不失去主要信息的条件下,禁令减少特征变量的个数。选中的特征变量在全部样品中变化显著,及方差比较大。2.2关于变量的数据预处理2.2.1变量的标准化设有n个样品,m个特征变量,设第i个样品,第j个变量的观测值为xij(i=1,2,…,n;j=1,2,…,m)。由此可构成一个nxm阶矩阵X=(xij)n×m=x11x12x21x22⋯x1mx2m⋮⋱⋮xn1xn2⋯xnm(2.1)将式(2.1)中每一个变量根据以下公式变换,称为标准化.对每个变量标准化的公式为x'ij=xij-xjSj(i=1,2,…,n)(j=1,2,…,m)式中,xj=1ni=1nxij,
3、Sj=[1ni=1n(xij-xj)2]12标准化后变量的平均值为0,标准离差为1.2.2.2变量的正规化对每个变量施行以下变换,称为正规化。x'ij=xij-xj(min)xj(max)-xj(min)(i=1,2,…,n;j=1,2,…,m)式中,和是第j个变量的最大值和最小值。显然,0≤x'ij≤1.2.2.3变量的规格化对变量施行以下变换,称为规格化。x'ij=xijxj(max)(i=1,2,…,n;j=1,2,…,m)式中,是第j个变量的最大值。显然,0≤x'ij≤1.2.3系统聚类法系统聚类法事目前国内使用最多的一种聚类法,属于聚合法。其分类统
4、计计量一般采用距离系数计量,其基本步骤为:1.每个样品为一类,计算各样品之间的距离系数;2.把距离最小的两类合为一类;3.计算新的类间的距离;4.重复2、3步一直到合为一类为止。由于在分类的过程中类与类间的距离可以有不同的定义,所以系统聚类法又可以细分为常用的八种方法,它们是最短距离法,最长距离法、中间距离法、可变法、重心法、类平均法、可变类平均法、离差平方和法。2.3.1最短距离法设有n个样品用dij表示样品Xi与样品Xj间的距离(i,j=1,2,3,n),用G1,G2,⋯表示类。定义类与类间的距离为两类最近样品的距离,用Dpq表示Gp与Gq的距离,则Dp
5、q=i∈Gpj∈Gqmin{dij}(2.2)当p=q是,规定Dpq=0分类的原则是:类与类之间的距离最近的两类合并。最短距离法事以公式(2.2)进行分类,步骤如下:1.确定样品之间的距离计算公式,计算出n个样品中的两两之间的距离dij(i,j=1,2,,n),得对称阵D(0):D0=0d12d13⋯d1nd210d23⋯d2n⋮⋮⋮⋯⋮dn1dn2dn3⋯0开始每个样品自成一类,所以dpq=dpq。2.选择D(0)中最小的非零元素,设为dpq(=Dpq),则将Gp与Gq合并成一个新类,记为Gr=Gp,Gq(2.3)3.计算新类Gr与其他类Gt(tp、q)的
6、距离;Drt=i∈Grj∈Gqtmin{dij}=mini∈Gpj∈Gqmindij,i∈Gpj∈Gqmindij=min{Dpt,Dqt}(2.4)将D(0)中第p,q行及第p,q列用式(2.3)合并成一个新行新列,对应于Gr,所得的矩阵记为D(1)。4.对D(1)重复上述多D(0)的2、3两步作法,得D(2),如此下去,直到所有的元素合并为一类为止。在实际分类过程中分类的结果一般用谱系图给出。2.3.2谱系图的形成作谱系图的方法目前有两种:一种是一次计算形成法,另一种是逐步计算形成法,规则如下:首先计算出n个样品(或变量)的距离系数(相似系数),找出最
7、小值(或者是最大值,比如相关系数),然后选出次小值(或者次大值),按以下规则归并:1.若两个样品(或变量)在已形成的组中未出现过,则形成新的组。2.若两个样品(或变量)中有一个事在已分好的组中出现过,则另一个就加入到该组中。1.若两个样品(或变量)都在同一组中,则不连接。2.若两个样品(或变量)都在已经分好的两组中,则把两组连接成新一组。如此反复进行,直到所有样品都归为一类为止。3实验数据与实验结果3.1实验数据在某地区通过地质资料分析及勘探证实该地区三号、五号煤层为可开采煤层,但在一些零星露头和小煤窑中所见的可开采煤究竟是属于哪一个层位尚难确定。现用定量分
8、析建模方法确定这些零星露头和小煤窑可开采煤究竟属哪一