多元统计分析方法 第七讲 聚类分析

多元统计分析方法 第七讲 聚类分析

ID:43510189

大小:453.00 KB

页数:60页

时间:2019-10-09

多元统计分析方法 第七讲 聚类分析_第1页
多元统计分析方法 第七讲 聚类分析_第2页
多元统计分析方法 第七讲 聚类分析_第3页
多元统计分析方法 第七讲 聚类分析_第4页
多元统计分析方法 第七讲 聚类分析_第5页
资源描述:

《多元统计分析方法 第七讲 聚类分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第七讲聚类分析聚类分析概述距离与相似系数系统聚类分析方法系统聚类分析应用举例第一节聚类分析概述多元统计分析中的分类方法聚类分析的涵义聚类分析方法多元统计分析中的分类方法一类:研究对象存在事先分类情况下,判断某个未知样品的归类一类:研究对象不存在事先分类情况下,进行数据结构的分类聚类分析的涵义是一种将样品或变量,按照它们在性质上的亲疏程度进行分类的多元统计分析方法。描述亲疏程度的途径:计算多维空间上点的距离;计算相似系数或相关系数聚类分析方法按照聚类方法的不同系统聚类分析法动态聚类分析法模糊聚类分析法图论聚类分析法聚类预报法按照分类

2、对象划分系统聚类分析法是在样品距离的基础上定义类与类的距离,首先将个样品自成一类,然后每次将具有最小距离的两个类合并,合并后再重新计算类与类之间的距离,再并类,这个过程一直持续到所有的样品都归为一类为止。这种聚类方法称为系统聚类法。根据并类过程所做的样品并类过程图称为聚类谱系图。动态聚类分析法模糊聚类分析法利用模糊集理论来处理分类问题的聚类方法图论聚类分析法利用图论中最小支撑树的概念来处理分类问题的聚类方法聚类预报法利用聚类分析来处理预报问题的方法。可以弥补回归分析和判别分析的不足。聚类分析方法Q型聚类分析法R型聚类分析法Q型聚类

3、分析法特征:对样品进行的分类处理。作用:①能够综合利用多个变量对样品进行分类;②分类结果直观,聚类谱系图清晰;③聚类结果细致、全面、合理。R型聚类分析法第二节距离与相似系数变量类型数据变换处理距离相似系数距离以及相似系数的选择原则变量类型名义特性:变量值是用一些类来表示的,类与类之间没有等级关系,如性别,职业等;顺序特性:变量值是用有序等级来表示的。如优秀、良好、中、及格、不及格等;数值特性:变量值是用连续的量来度量的。如长度、重量、压力等。对于不同类型的变量在定义距离相似测度时有很大的差异。这里主要研究的是具有数值特性的变量的聚

4、类分析方法。数据变换处理原因:实际应用所使用的样本资料中,由于不同的变量具有不同的计量单位(或量纲),并且具有不同的数量级,为了使具有不同计量单位和数量级的数据能够放在一起进行比较分析,通常都要对数据进行变换处理。涵义:所谓数据变换,就是将原始数据矩阵中的各个变量值,按照某种特定的运算把它变换成为一个新值,而且数值的变换不依赖于原始数据中其他变量的新值。方法:中心化变换规格化变换(极差正规化)标准化变换对数变换其他方法中心化变换方法规格化变换(极差正规化)标准化变换对数变换其他方法极差标准化。把每个变量的样本极差皆化为1。立方根变

5、换。把非线性数据结构变为线性结构。平方根变换。把非线性数据结构变为线性结构。距离距离的条件常用距离1、明氏距离2、欧氏距离3、绝对值距离4、切比雪夫距离5、兰氏距离以上距离一个共同的特点是,均没有考虑相关性。6、马氏距离7、其他距离距离的条件明氏距离(明科夫斯基)欧氏距离绝对值距离切比雪夫距离兰氏距离马氏距离其他距离斜交空间距离链距离相似系数相似系数的定义常用相似系数夹角余弦相关系数指数相似系数非参数方法相似系数的定义夹角余弦相关系数指数相似系数非参数方法距离以及相似系数的选择原则对于同一数据资料,进行聚类分析时,选择的不同的距离

6、公式或者不同的相似系数,聚类结果是不一样的。因为不同的距离公式或者不同的相似系数所反映的样品或指标的亲疏程度的意义是不同,因此,在运用中应该根据不同的实际情况,选择不同距离或相似系数。实际意义原则数据性质原则实际意义原则即所选择的距离或者相似系数应该具有明确的实际意义。比如经济指标之间的相关应该是具有现实的经济联系的。数据性质原则根据原始数据的各自特点,选择不同的数据变换,再根据不同的数据变换选择不同的距离或者相似系数。1、若数据进行了标准化,则相关系数与夹角余弦是一致。2、若聚类分析前已经对变量的相关性作了处理,则通常采用欧氏距

7、离,而不必选用斜交空间距离。3、所选距离应与所选聚类分析方法一致(1)若聚类方法为离差平方和法时,距离只能选用欧氏距离;(2)工作量大小原则。斜交空间距离的计算量一般很大。总之,在一般情况下,有以下的经验可以借鉴。相关系数的稳定性要强于相似系数,而分辨力却弱于相似系数;使用距离和使用相似系数进行聚类的结果对比,相似系数的计算数值由大到小单调地减少,所以聚类谱系图能够比较明显地反映分群的情况,而使用距离的数据有时呈现非单调性增加,聚类谱系图反映的分群情况就不够明显。第三节系统聚类分析方法系统聚类分析的涵义及步骤系统聚类方法系统聚类分

8、析方法的统一公式剩余信息的剔除谱系分类的确定系统聚类分析方法的性质系统聚类分析的涵义及步骤涵义:是在样品距离的基础上,定义类与类之间的距离,首先将几个样品自成一类,然后每次将具有最小距离的两类合并,合并后重新计算类与类之间的距离,这个过程一直继续到

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。