统计方法6-聚类分析.doc

统计方法6-聚类分析.doc

ID:60761468

大小:160.50 KB

页数:15页

时间:2020-12-15

统计方法6-聚类分析.doc_第1页
统计方法6-聚类分析.doc_第2页
统计方法6-聚类分析.doc_第3页
统计方法6-聚类分析.doc_第4页
统计方法6-聚类分析.doc_第5页
资源描述:

《统计方法6-聚类分析.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、统计方法6聚类分析第一节基本概念1.分类问题直观解释:聚类分析就是用某种准则将靠近的点集归为一类对样本(观测值)进行聚类,也可以对指标(变量)进行聚类。2.距离样品之间的距离设p维空间内的点及定义两点之间的距离(1)欧氏距离(2)马氏距离其中是数据矩阵的协方差阵。马氏距离的优点是考虑了空间内的概率分布,在正态总体的情况下,有比较好的效果。距离的定义比较灵活,只要满足条件都可以作为聚类时的距离。变量之间的距离变量之间的距离要考虑到变量之间的相互关系。常用的距离如夹角余弦,相关系数等类和类之间的距离在聚类过

2、程中,要涉及到类和类之间的合并,因此也要考虑类间的距离。如类间最短距离设是样本i和样本j之间的距离,是类和类之间的距离定义类间的最短距离为=类似的可以定义类间的最长距离,平均距离等。第二节系统聚类法系统聚类方法是非常容易在计算机上实现的一种聚类方法,其聚类步骤为:1)将空间各点各自视为一类,计算每类间的距离矩阵,将距离最小者归为一类。2)对与新的类重新计算类与类间的距离矩阵,再将距离最小者归为一类。3)这一过程一直进行下去,直到所有的点归为一类为止。n例8.2.1:设抽六个样,每个样本只有一个变量,即:

3、1,2,5,7,9,10。定义距离为:两点的绝对值。试用最小距离法对它们进行系统聚类。1)计算得距离矩阵D(0),为2)D(0)的最小距离时是1,对应元素D12=D56=1,则将G1,G2并成G7;G5;G6并成G8。3)计算G7,G8与其他类道距离,得D(1)4)的D(1)的最小距离是2,把合并为类,5)把G7和G9合并为G10,聚类距离为3。此时已将全部样本合并为一类,聚类结束。可以按照聚类的距离,通过谱系图把聚类的过程表示出来。最后,选择合适的阈值,确定聚类的个数。如取阈值为2.5,则分为2类,G

4、7和G9第三节动态聚类法(k均值法)k-均值法是一种划分方法。函数kmeans把数据划分为k个互不相交的类,然后对每个观测返回类的标号。对于大量的数据k-均值法比系统聚类法更合适。Kmeans把数据集中的每一个数据视为占有空间中某个位置的对象。K-均值法寻找划分使得每一类内部的数据足够近而类之间的数据足够远。函数提供了5种距离的测量。步骤Step1:选择k个样品作为初始凝聚点,或者将样品分为k个初始类,然后将其重心(均值)作为初始凝聚点Step2:将每个样品归入离其凝聚点最近的类(通常采用欧氏距离)。S

5、tep3:重新计算每个类的重心(均值);Step4:重复Step2,直到各类重心不再变化,类不再变化为止。动态聚类的结果严重依赖初始凝聚点的选取。经验表明,聚类过程的绝大多数重要变化均发生在第一次再分类中。第四节MATLAB统计工具箱中的聚类分析A系统聚类法1.点点距离的计算命令pdistY=pdist(X)Y=pdist(X,'metric')Y=pdist(X,distfun)Y=pdist(X,'minkowski',p)这里:X:为数据矩阵metric:各种距离方法‘euclidean’:欧几里

6、得距离Euclideandistance(default)‘seuclidean’:标准欧几里得距离.‘mahalanobis’:马氏距离‘cityblock’:绝对值距离‘minkowski’:明可夫斯基距离‘cosine’:cosine角度距离(对变量聚类)‘correlation’:相关系数距离.(对变量聚类)‘hamming’:Hamming距离(符号变量求距离)‘jaccard’:Jaccard系数距离(符号变量求距离)‘chebychev’:切比雪夫距离2.类类距离的计算命令linkage,

7、基本语法为;Z=linkage(Y)Z=linkage(Y,'method')这里:Y:为pdist输出的结果,即点点的距离矩阵。‘method’:为计算类类间距离的方法。它们有:‘single':最短距离法(系统内定)‘complete’:最长距离法。‘average’:平均距离法。‘weighted’:加权平均距离法。‘centroid’:中心距离法。‘median’:加权重心法。3)聚类命令cluster,语法为:T=cluster(Z,'cutoff',c)T=cluster(Z,'maxclu

8、st',n)这里:Z:为linkage输出的层次数据。‘cutoff’:按某个值进行切割,值c取(0,1)之间的值。‘maxclust’:按最大聚类数聚类,n为指定的聚类数。4)作聚类图命令dendrogram,其语法为:H=dendrogram(Z)H=dendrogram(Z,p)[H,T]=dendrogram(...)[H,T,perm]=dendrogram(...)[...]=dendrogram(...,'colorthres

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。