第12讲 聚类分析2

第12讲 聚类分析2

ID:44946067

大小:4.05 MB

页数:140页

时间:2019-11-05

第12讲 聚类分析2_第1页
第12讲 聚类分析2_第2页
第12讲 聚类分析2_第3页
第12讲 聚类分析2_第4页
第12讲 聚类分析2_第5页
资源描述:

《第12讲 聚类分析2》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、聚类分析2ClusterAnalysis分类俗语说,物以类聚、人以群分。但什么是分类的根据呢?比如,要想把中国的省份成若干类,就有很多种分类法;可以按照地域或自然条件来分,比如考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标;既可以用某一项来分类,也可以同时考虑多项指标来分类。聚类分析做什么?聚类分析对于一个数据,人们既可以对观测值(事件,样品)来分类(相当于对数据中的行分类),也可以对变量(指标)进行分类(相当于对数据中的列分类)。比如学生成绩数据就可以对学生按

2、照理科或文科成绩(或者综合考虑各科成绩)分类,当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分类。聚类分析做什么?第四节Q型系统聚类法系统聚类法(层次聚类法):在聚类分析的开始,每个样本自成一类;然后,按照某种方法度量所有样本之间的亲疏程度,并把最相似的样本首先聚成一小类;接下来,度量剩余的样本和小类间的亲疏程度,并将当前最接近的样本或小类再聚成一类;再接下来,再度量剩余的样本和小类间的亲疏程度,并将当前最接近的样本或小类再聚成一类;如此反复,直到所有样本聚成一类为止。hierarchi

3、calclusteringmethod聚类分析也是一种分类技术。与多元分析的其他方法相比,该方法较为粗糙,理论上还不完善,但应用方面取得了很大成功。与回归分析、判别分析一起被称为多元分析的三大方法。聚类分析1.聚类的目的使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类。根据已知数据,计算各观察个体或变量之间亲疏关系的统计量(距离或相关系数)。根据某种准则(最短距离法、最长距离法、中间距离法、重心法),2.聚类的种类根据分类的原理可将聚类分析分为:系统聚类与快速聚类根据分类的

4、对象可将聚类分析分为:系统Q型与R型(即样品聚类clusteringforindividuals与指标聚类clusteringforvariables)设有n个样本单位,每个样本测得p项指标(变量),原始资料阵为:Q型聚类以距离作为统计量,R型聚类以相似系数作为统计量。聚类分析概述3.聚类分析数据格式k饮料数据(drink.sav)16种饮料的热量、咖啡因、钠及价格四种变量样本聚类结果是:第一类为饮料1、10;第二类为饮料2、4、8、11、12、13、14;第三类为剩下的饮料3、5、6、7、9、15、

5、16。(一)距离假使每个样品有p个变量,则每个样品都可以看成p维空间中的一个点,n个样品就是p维空间中的n个点,则第i样品与第j样品之间的距离记为dijQ型聚类统计量(距离)把n个样本点看成p维空间的n个点1、绝对距离(Block距离)2、欧氏距离(Euclideandistance)Q型聚类统计量(距离)3、明考斯基距离(Minkowski)4、兰氏距离5、马氏距离6、切比雪夫距离(Chebychev)Q型聚类统计量(距离)2.明氏(Minkowski)距离实例计算品绝对值距离Euclidian距离

6、的平方Euclidian距离变量标准化后的Euclidian距离作用:消除量纲的影响4.Lance和Williams距离5.斜交空间距离可考虑变量间相关性问题6.配合距离适用于分类变量,尤其是名义尺度变量步骤:1、对数据进行变换处理,消除量纲2、构造n个类,每个类只包含一个样本计算3、n个样本两两间的距离{dij}4、合并距离最近的两类为一新类5、计算新类与当前各类的距离,重复(4)6、画聚类图7、决定类的个数和类第四节Q型系统聚类法类与类之间的距离1.最短距离法(singlelinkage)2.最长

7、距离法(completelinkage)3.中间距离法(medianmethod)4.类平均法(averagelinkage)5.可变类平均法(flexible-betamethod)6.重心法(centroidmethod)7.Ward离差平方和法(Ward'sminimum-variancemethod)类与类之间的距离8.Mcquitty的相似分析法(Mcquitty'ssimilarityanalysis)9.最大似然估计法(EML)10.密度估计(densitylinkage)11.两阶段密

8、度估计法(two-stagedensitylinkage)等。最小距离法(singlelinkagemethod)极小异常值在实际中不多出现,避免极大值的影响(一)最短距离法(singlelinkage,nearestneighbor)两类间两样本距离最短为A2与B1之间的距离例:如下图所示1、设全部样本分为6类,2、作距离矩阵D(0)ω1ω2ω3ω4ω5ω23ω314ω4748ω55262ω685913(一)最短距离法3、求最小元素:4、把ω1,ω3合

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。