《统计分析聚类分析》PPT课件

《统计分析聚类分析》PPT课件

ID:36904561

大小:1.84 MB

页数:54页

时间:2019-05-10

《统计分析聚类分析》PPT课件_第1页
《统计分析聚类分析》PPT课件_第2页
《统计分析聚类分析》PPT课件_第3页
《统计分析聚类分析》PPT课件_第4页
《统计分析聚类分析》PPT课件_第5页
资源描述:

《《统计分析聚类分析》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、§10聚类分析(ClusterAnalysis)[引例10-1]§10聚类分析(ClusterAnalysis)[引例10-1]§10聚类分析(ClusterAnalysis)§10.1概述§10.2统计量§10.3系统聚类(层次聚类)§10.4快速聚类§10.1概述问题的提出基本思想主要步骤基本原则主要分类§10.1概述§10.1概述问题的提出聚类分析又称群分析、点群分析、簇群分析等,是研究分类问题(样本或指标)的一种多元统计方法。与其它多元统计分析方法相比,聚类分析方法比较粗糙,理论上尚不完善,目前正处于发展阶段。但由于这种方法能解决许多实际问题,应

2、用比较方便,因此越来越受到人们的重视。§10.1概述问题的提出基本思想假定研究对象之间存在不同程度的相似性(亲疏程度)。根据观测样本,找出并计算一些能够度量相似程度的统计量(相似系数、相关系数、距离等)。按照相似性统计量,将相似程度大的聚合到一类,关系疏远的聚合到另一类,直到把所有样本都聚合完毕,形成一个由小到大的分类系统。最后将分类系统直观地用图形表示出来,即谱系图。§10.1概述主要分类R型聚类分析对变量进行聚类分析(比较:主成分、公因子)Q型聚类分析对样本进行聚类分析(比较:主成分得分、因子得分)§10.1概述主要分类系统聚类(hierarchic

3、alcluster)不指定最终的类数,结论将在聚类过程中寻求,这种聚类称为系统聚类可以对变量和样本进行聚类分析快速聚类(K-meanscluster)事先指定用于聚类分析的类数只对样本进行聚类分析,适合大样本数据§10.1概述统计量为了将样本(或变量)进行分类,需要研究其关系。目前用得最多的方法有两个:一种方法是用相似系数,比较相似的样本归为一类,不怎么相似的样本归为不同的类。另一种方法是将一个样本看作P维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类。对样本进行聚类(Q型聚类),常用的统计量为距离;对变量进行聚类(R型聚

4、类),常用的统计量为相似系数。§10.2统计量相似系数是指衡量全部样本或全部变量中任何两部分相似程度的指标。主要有内积系数、匹配系数等几项指标,其中内积系数(innerproductcoefficient)是普通应用于数量数据的相似性指标。两个同维向量与的各分量依次相乘再相加,称为两向量的内积(innerproduct)。内积的数值可以作为一种反映两向量相似程度的指标,称为相似系数。统计量-相似系数相似系数(similaritycoefficient)§10.2统计量为了消除量纲的影响,对内积进行模标准化处理,经过模标准化处理后的内积正好是两个向量在原点

5、处的夹角余弦。统计量-相似系数夹角余弦(Cosine)§10.2统计量为了消除量纲的影响,对原始数据进行离差标准化处理,经过离差标准化处理后的内积正好是两个向量的相关系数。统计量-相似系数相关系数(Correlationcoefficient)§10.2统计量计算任何两个样本(指标)与之间的相关系数,其值越大表示样本(指标)间接近程度越大,值越小表示接近程度越小。可以根据相似系数矩阵对样本(指标)进行分类。统计量-相似系数相关系数矩阵§10.2统计量统计量-相似系数§10.2统计量距离实质上反映的是两个向量相异的指标,它与相似是互补的概念。距离系数的种类

6、很多,但都有一个共同的特征,即当两个向量完全相同时取最小值,完全不同时取最大值。统计量-距离距离§10.2统计量点与点之间的距离:把每一个样本视为p维空间中的一个点,则两个样本之间的距离可以定义为p维空间中两个点之间的距离。类与类之间的距离:类间距离是基于点间距离定义的,比如两类之间最近点之间的距离可以作为这两类之间的距离,也可以用两类中最远点之间的距离或各类的中心之间的距离来作为类间距离。如果每一类都由一个点组成,那么点间的距离就是类间距离。统计量-距离距离§10.2统计量统计量-距离明氏距离(Minkowskidistance)第i个样本与第j个样本

7、间的明氏距离为:绝对值距离(absolutevaluedistance)q=1时§10.2统计量统计量-距离欧氏距离(Eculideandistance)q=2时切比雪夫离(Chebychevdistance)§10.2统计量欧氏距离是应用最广泛的一种距离系数。统计量-距离马氏距离(Mahalanobisdistance)设样本的协差阵为S,其逆阵为S-1,则第i样本与第j样本间的马氏距离为:§10.2统计量统计量-距离§10.2统计量类与类之间的距离最短距离设类Gp与类Gq中两个元素之间的最短距离为Gp与类Gq之间的距离最长距离设类Gp与类Gq中两个元

8、素之间的最长距离为Gp与类Gq之间的距离§10.2统计量类与类之间的距离重心距离

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。