欢迎来到天天文库
浏览记录
ID:51942651
大小:1.17 MB
页数:26页
时间:2020-03-20
《Cluster analysis聚类分析解析.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第12章聚类分析12.1模型简介12.1.1问题的提出人以类聚,物以群分,人们总是试图把万千世界中的事物按照它们的各种属性和特征分成有限的类别,从而方便地进行进一步的认识和研究。把事物分成若干类别的方法有很多种,能够想到最简单的方法就是根据经验来划分。例如图12.1(a)所显示的数据是某次科学研究中调查的18岁人群的身高和体重散点图,为了能够进一步研究,人们希望对其进行分类。通常可以想到的最简单的方法就是根据常识可以把人群分为4类瘦高、胖高、瘦小、矮胖,标准是:(1)瘦高:身高大于人群平均身高,体重小于人群
2、平均体重;(2)胖高:身高大于人群平均身高,体重大于人群平均体重;(3)瘦小:身高小于人群平均身高,体重小于人群平均体重;(4)矮胖:身高小于人群平均身高,体重大于人群平均体重。分类结果如图12.1(a)所示。但是仔细考虑,会发现这种分类方法会有一些问题,一是不同类别在散点图中没有明显的区分;二是很少利用了数据本身的信息,在这个例子中仅仅利用了平均数信息;二是如果当区分变量多时(比如10个),就很难再用经验对其进行这种"机械"的分类了。考虑到以上问题,人们发明了根据数据本身结构特征对数据进行分类的方法聚类分
3、析,通过聚类分析,可以把数据分成若干个类别,使得类别内部的差异尽可能的小,类别间的差异尽可能的大。图12.1(b)图就是利用聚类分析得到的身高体重数据的分类结果,它把人群分成了5类,可以看出不同的类别之间的区别明显了(表现在图中就是不同类别问散点有一定距离),更多了利用了数据本身的信息,位于图形右上方的异常值也被单独的划成了一类,另外这种分类方法可以同时处理很多个变量情况下的分类问题。和在前面章节学习的统计方法不同,聚类分析是一种探索性的统计分析方法,它没有过多的统计理论支持,也没有很多的统计检验对聚类结果
4、的正确性"负责"仅仅是按照所定义的距离将数据进行归类而己,有的统计学家就因此而拒绝承认它是一种统计方法。从应用的角度讲,针对某一个特定问题,很难得出一个完全确定,也能够得到理论完全支持的结论,更多的时候是依据聚类结果在问题中的"有用性"来判断模型效果的好坏。•235•图12.1不同的分类方法示意图12.1.2聚类分析入门聚类分析的实质就是按照距离的远近将数据分为若干个类别,以使得类别内数据的"差异"尽可能小,类别
5、可"差异"尽可能大。因此,在进行聚类分析是要重点要明确以下一些问题:1.所用的变量类型变量可以
6、被分成两类,一类是分类变量(诸如民族、性别等),另一类是连续性变量(诸如身高、销售收入等)。这两类变量在聚类时常用的距离测量方式完全不同,如连续性变量一般使用欧氏平方距离,而分类变量则使用矿作为距离指标。因此,多数传统聚类方法只能使用单一种类的变量进行分析,如果数据中同时有这两类变量,则或者只采用连续性变量进行分析,将分类变量用于结果的描述和验证;或者将分类变量按照哑变量的方式拆分成多个二分类变量,然后按照连续性变量的方式进行分析。不过,近年来新发展出的一些智能聚类方法己经可以很好的同时分析这两种变量,两步
7、聚类就是其中的典型代表。2.聚类方法的选择传统的聚类方法大致可以分为两大类,一类是层次聚类法(HierarchicaD,另一类是重新定位聚类法(Relocation),也称非层次聚类法。各种聚类方法分别有着不同的适用条件,对于不同数据会有不同的表现,很难有统一的标准说明什么时候应该选用什么样的方法。涉及每种方法的细节在本章后面的段落里还会有更加详细的介绍。3.距离的定义在聚类分析中最重要的问题就是如何描述"差异"通常的做法是通过距离或者相似性的方式来描述。统计学家发明了各种各样描述距离和相似性的方法,在SP
8、SS提供的距离和相似性度量就有多达30余种之多。而在统计学中最常用的是距离表达是欧几里得距离,对于两条数据(X1'川,ZI)和(町,仇,Z2),欧几里得距离的计算公式是:E即lid(1,2)=!(x-X)2+(Y1-Y2)2+(ZI-Z2)212•236•但是在聚类别分析中往往会使用欧几里得距离的平方来度量距离,大多数的聚类过程默认都采用这样的距离度量。4.数据的标准化问题通过上面介绍的距离度量可以发现一个问题,就是如果不同变量的数量级相差太大,会使得两个变量的影响明显不平衡。比如如果叫和町的数量级是万,而
9、川和们的数量级是十,那么在计算距离的时候就会发现y变量对距离计算的结果影响相对于χ就显得微不足道了,这显然不是我们希望看到的。为了解决这个问题,如果各变量的数量级相差太大,在进行聚类分析之前,要对数据进行标准化,使得不同数量级的数据之间可以比较。常用的标准化方式有两种,一种是把数据全部标准化为服从平均数为0,标准差为1的标准正态分布,另一种是把数据变换为范围在o~1之间的数据。当然还有很多别的数据标准化方法,在这
此文档下载收益归作者所有