聚类算法聚类分析与判别分析

聚类算法聚类分析与判别分析

ID:43872727

大小:316.35 KB

页数:76页

时间:2019-10-16

聚类算法聚类分析与判别分析_第1页
聚类算法聚类分析与判别分析_第2页
聚类算法聚类分析与判别分析_第3页
聚类算法聚类分析与判别分析_第4页
聚类算法聚类分析与判别分析_第5页
资源描述:

《聚类算法聚类分析与判别分析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、聚类算法聚类分析与判别分析第一节聚类分析统计思想一、聚类分析的基本思想1.什么是聚类分析俗语说,物以类聚、人以群分。当有一个分类指标时,分类比较容易。但是当有多个指标,要进行分类就不是很容易了。比如,要想把中国的县分成若干类,可以按照ii然条件来分:考虑降水、土地、FI照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标;对于多指标分类,由于不同的指标项对重要程度或依赖关系是相互不同的,所以也不能用平均的方法,因为这样会忽视相对重要程度的问题。所以需要进行多元分类,即聚类分析。最早的聚类分

2、析是由考古学家在对考古分类小研究小发展起来的,同时又应用于昆虫的分类中,此后乂广泛地应用在天气、生物等方面。对于一个数据,人们既可以对变量(指标)进行分类(相当于对数据111的列分类),也可以对观测值(事件,样品)來分类(相当于对数据中的行分类)。2.R型聚类和Q型聚类对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的,没有什么不同。聚类分析就是要找出具有相近程度的点或类聚为一类;如何衡量这个“相近程度”?就是要根据“距离”來确定。这里的距离含义很广,凡是满足4个条件(后面讲

3、)的都是距离,如欧氏距离、马氏距离…,相似系数也可看作为距离。二、如何度量距离的远近:统计距离和和似系数1.统计距离距离有点间距离好和类间距离2.常用距离统计距离有多种,常用的是明氏距离。3.相似系数当对个指标变量进行聚类时,用相似系数来衡量变量间的关联程度,一般地称为变量和间的相似系数。常用的相似系数有夹角余弦、相关系数等。夹角余弦:相关系数:对于分类变量的研究对象的相似性测度,一般称为关联测度。笫二节如何进行聚类分析一、系统聚类1.系统聚类的基本步骤2.最短距离法3.最长距离法4.重心法和类平均法5.

4、离差平方和法二、SPSS中的聚类分析1、事先要确定分多少类:K均值聚类法;2、事先不用确定分多少类:分层聚类;分层聚类由两种方法:分解法和凝聚法。分层聚类的功能:即可进行样品的聚类,也可进行变量的聚类。分层聚类的原理:即我们前面介绍过的系统聚类方法的原理和过程。分层聚类的中耍进行以下的选择:数据的标准化测度方法的选择:距离方法的选择或相似性、关联程度的选择。聚类方法的选择:即以什么方法聚类,spss中提供了7中方法可进行选择。输出图形的选择:树形图或冰柱图。3、聚类分析要注意的问题。聚类方法的优缺点:类平

5、均法比较好,因为与类平均法相比,最短和重心法是“空间浓缩”,即并类的距离范围小,区别类的灵敏度差;与类平均法相比,其他方法是“空间扩张”,即并类距离范围大,区别类的灵敏度强。最短距离比最长距离法好聚类结果中,如果孤类点太多,则说明该中聚类方法不好。如果从减少孤类来看,一般情况下用Word's方法最好。快速聚类法与层次聚类法应用区别层次聚类法的聚类过程是单方向的,一旦某个样品(case)进入某一类,就不可能从该类出來,再归入其他的类。而快速聚类法受奇异值、相似测度和不合使得聚类变量的影响较小,对于不合适的初

6、始分类可以进行反复调整.在聚类分析发展的早期,层次聚类法应用普遍,其中尤以组间类平均法和离差平方和法应用最广。后來快速聚类方法逐步被人们接受,应用仃益增多。现在是两者相结合,取长补短。首先使用层次聚类法确定分类数,检查是否有奇异值,去除奇异值后,对剩下的案例重新进行分类,把用层次聚类法得到的各个类的重心,作为迭代法的初始分类屮心,对样木进行重新调整。第三节判别分析一、判别分析的基本思路1.为什么判别?有一些昆虫的性别很难看出,只有通过解剖才能够判别;但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统

7、计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准来判别其他未知性别的昆虫。这样的判别虽然不能保证百分之百准确,但至少大部分判别都是对的,而且用不着杀死昆虫来进行判别了。2.判别分析(discriminantanalysis)的含义这就是本章要讲的是判别分析。判别分析和前而的聚类分析冇什么不同呢?主要不同点就是,在聚类分析中一般人们事先并不知道或一定要明确应该分成儿类,完全根据数据来确定。而在判别分析中,至少有一个己经明确知道类别的“训练样本”,利用这个数

8、据,就可以建立判别准则,并通过预测变量来为未知类别的观测值进行判别了。3.判别分析例子例10.1数据disc,sav:企图用一套打分体系来描绘企业的状况。该体系对每个企业的一些指标(变量)进行评分。这些指标包括:企业规模(is)、服务(sc)、雇员工资比例(sa)>利润增长(prr)>市场份额(ms)、市场份额增lx(msr)、流动资金比例(cp)、资金周转速度(cs)等等。另外,有一些企业已经被某杂志划分为上升企业、稳定企业

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。