[精品]聚类分析与判别分析

[精品]聚类分析与判别分析

ID:43778485

大小:45.50 KB

页数:6页

时间:2019-10-14

[精品]聚类分析与判别分析_第1页
[精品]聚类分析与判别分析_第2页
[精品]聚类分析与判别分析_第3页
[精品]聚类分析与判别分析_第4页
[精品]聚类分析与判别分析_第5页
资源描述:

《[精品]聚类分析与判别分析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、第一节聚类分析统计思想一、聚类分析的基本思想1.什么是聚类分析俗语说,物以类聚、人以群分。当有一个分类指标时,分类比较容易。但是当有多个指标,要进行分类就不是很容易了。比如,要想把中国的县分成若干类,可以按照自然条件來分:考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标;对丁-多指标分类,由丁•不同的指标项对重要程度或依赖关系是相互不同的,所以也不能川平均的方法,因为这样会忽视相对重要程度的问题。所以需耍进行多元分类,即聚类分析。最早的聚类分析是由考古学家在对考古分类中研究中发展起来的

2、,同时乂应用于昆虫的分类中,此后乂广泛地应川在天气、生物等方面。对于一个数据,人们既可以对变量(指标)进行分类(相当丁-对数据中的列分类),也可以对观测值(事件,样品)來分类(相当于对数据中的行分类)。2.R型聚类和Q型聚类对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的,没有什么不同。聚类分析就是要找出貝有相近程度的点或类聚为一类;如何衡量这个“相近程度”?就是要根据“距离”來确定。这里的距离含义很广,凡是满足4个条件(后面讲)的都是距离,如欧氏距离、马氏距离…,相似系数也可看作为距离。二

3、、如何度屋距离的远近:统计距离和相似系数1.统计距离距离有点间距离好和类间距离2.常用距离统计距离有多种,常川的是明氏距离。3.相似系数当对个指标变量进行聚类时,用和似系数来衡量变量间的关联程度,一般地称为变量和间的相似系数。常用的相似系数有夹角余弦、相关系数等。夹角余弦:相关系数:对于分类变屋的研究对象的和似性测度,一般称为关联测度。第二节如何进行聚类分析一、系统聚类1.系统聚类的基木步骤2.最短距离法3.最长距离法4.重心法和类平均法5.离差平方和法二、SPSS屮的聚类分析1、事先要确定分多少类:K均值聚类法;2、事先

4、不用确定分多少类:分层聚类;分层聚类山两种方法:分解法和凝聚法。分层聚类的功能:即可进行样品的聚类,也可进行变量的聚类。分层聚类的原理:即我们前面介绍过的系统聚类方法的原理和过程。分层聚类的中耍进行以卜•的选择:数据的标准化测度方法的选择:距离方法的选择或和似性、关联程度的选择。聚类方法的选择:即以什么方法聚类,spss中捉供了7中方法可进行选择。输出图形的选择:树形图或冰柱图。3、聚类分析要注意的问题。聚类方法的优缺点:类平均法比较好,因为与类平均法相比,最短和重心法是“空间浓缩”,即并类的距离范围小,区别类的灵敏度差;

5、与类平均法相比,其他方法是“空间扩张”,即并类距离范围人,区别类的灵敏度强。最短距离比最怏距离法好聚类结果中,如果孤类点太多,则说明该中聚类方法不好。如果从减少孤类來看,一般情况下用Word's方法最好。快速聚类法与层次聚类法应用区別层次聚类法的聚类过程是单方向的,一旦某个样品(case)进入某一类,就不可能从该类出來,再归入其他的类。而快速聚类法受奇异值、相似测度和不合使得聚类变量的彩响较小,对于不合适的初始分类可以进行反复调整.在聚类分析发展的早期,层次聚类法应用普遍,其中尤以组间类平均法和离差平方和法应用最广。后來快

6、速聚类方法逐步被人们接受,应用日益增多。现在是两者相结合,取长补短。首先使川层次聚类法确定分类数,检查是否有奇异值,去除奇异值后,对剩下的案例重新进行分类,把用层次聚类法得到的各个类的重心,作为迭代法的初始分类中心,对样木进行重新调整。第三节判别分析一、判别分析的基木思路1.为什么判别?有-些昆虫的性别很难看出,只有通过解剖才能够判别;但是雄性和雌性昆虫在若干体表度量上有些综合的差显。于是统计学家就根据已知雌雄的昆虫体表度•量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准来判别其他未知性别的昆虫。这样的

7、判別虽然不能保证百分Z百准确,但至少人部分判別都是对的,而且用不着杀死昆虫來进行判別了。2.判别分Uf(discriminantanalysis)的含义这就是木章耍讲的是判别分析。判别分析和前面的聚类分析有什么不同呢?主耍不同点就是,在聚类分析中i般人们事先并不知道或一定耍明确应该分成儿类,完全根抓数厠来确定。而在判别分析中,至少冇一个己经明确知道类別的“训练样本”,利用这个数据,就可以建立判別准则,并通过预测变量來为未知类别的观测值进行判别了。1.判别分析例子例10.1数据disc.sav:企图用一套打分体系來描绘企业的

8、状况。该体系对每个企业的一些指标(变量)进行评分。这些指标包括:企业规模(is)、服务(se)、雇员工资比例(sa)、利润增长(pit)、市场份额(ms)、市场份额增长(msr)、流动资金比例(cp)、资金周转速度(cs)等等。另外,有一些企业已经被某杂志划分为上升企业、稳定企业和下降企业。我们希與根据

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。