欢迎来到天天文库
浏览记录
ID:58697861
大小:271.00 KB
页数:72页
时间:2020-10-04
《第8章 聚类分析与判别分析ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、让混沌涌来吧!让云彩形成一片沼泽!我等待着成形。——RobertFrost统计名言日常生活中,人们总是喜欢用“不是一家人不进一家门”这样通俗的话语来表示具有某些相似特征的人(或物)理应“走到”一起。究其本质,人们是尝试用某一种标准把所有的对象进行分门别类在自然科学和社会科学的各个领域,存在着大量的分类问题。比如根据人均GDP、人均消费水平等多项指标把世界各国划分成不同的经济发展程度;在地质勘探中,根据岩石标本的多种特性来判别地层所属的地质年代等怎样解决下面的问题?这些分类问题中,有些是事先并不知道存在什么类别,完全按照反映对象特征的
2、数据所揭示的规律把对象进行分类;有些则是在事先有了某些可信的分类标准之后,判定一个新的研究对象应该归属到哪一类别这两种研究分类的基本方法分别就是多元分析中的聚类分析和判别分析,二者之间既有区别又有联系怎样解决下面的问题?第8聚类分析与判别分析8.1聚类分析8.2判别分析8.1聚类分析8.1.1按什么来聚类?8.1.2怎样度量距离远近?8.1.3分层聚类法8.1.4K-均值聚类法第8章聚类分析与判别分析聚类分析是一种建立分类的多元统计方法,它能将一批样本(变量)数据根据其诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进行自动分
3、类,产生多个分类结果。类内部个体特征具有相似性,类间个体特征的差异性较大。所谓“没有先验知识”是指没有事先设定分类标准;所谓“亲疏远近”是指在各变量(特征)取值上的总体差异程度。聚类分析正是基于此实现数据的自动分类。什么是聚类分析?聚类分析的目的就是把分类对象按照一定的规则分成合理的若干类别,这些类不是事先给定的,而是直接根据数据的特征确定的当面对一个数据时,人们既可以按照观测值对变量进行分类,也可以按照观测值对样本进行分类,这在聚类分析中被分别称为R型聚类和Q型聚类但在数学上和实现过程中,这两种聚类并没有什么本质区别,考虑到人们更
4、感兴趣的往往是基于变量信息对样品进行分类,因此在此重点以Q型聚类为例来介绍该方法什么是聚类分析?8.1.1按什么来聚类?8.1聚类分析2008年5月【例8.1】下面的表8-1是20个不同品牌的啤酒的热量、纳含量、酒精以及价格数据。按什么来聚类?在古老的分类学中,人们只能依靠经验和专业知识进行定性的分类,但在我们有了上述数据之后,一个很自然的想法就是能不能按照这些指标取值进行定量分类如果我们只考虑有关这些品牌的某一项指标,分类就很简单了,只要把该指标取值相差不大的品牌归为一类即可。但现实中摆在我们面前的往往是包含多个变量的复杂信息,那
5、么该如何同时根据例8.1中的四个变量来对啤酒品牌聚类呢?其实想法是一样的,就是把离得比较近的品牌归为一类,而离得比较远的品牌放在不同的类。在数学处理上就是用“距离”来度量对象之间的相似性按什么来聚类?8.1.2怎样度量距离远近?8.1聚类分析对“亲疏远近”的测度一般有两个角度:一是个体间的相似程度;二是个体间的差异程度。衡量相似程度通常可采用简单相关系数或等级相关系数等;个体间的差异程度通常用某种距离来测度。为测度个体间距离首先将每个样本数据看p维空间中的一个点。一般点与点之间的距离越小,意味着它们越“亲密”,越可能聚为一类。度量点
6、间距离的方法有很多种,如果涉及的p个变量是定距型变量,常用的距离定义包括欧氏距离、平方欧氏距离、切比雪夫距离、绝对值距离(black距离)、明考斯基距离、夹角余弦距离、用户自定义距离等。怎样度量距离远近?1.欧氏距离:2.切比雪夫距离:3.绝对距离(black距离):4.明考斯基距离(q可以任意指定)怎样度量距离远近?5.夹角余弦距离:怎样度量距离远近?如果涉及的k个变量是计数型变量,常用的距离定义包括卡方距离、Phi方距离等。1.卡方距离:2.Phi方距离:(n是总频数)怎样度量距离远近?如果涉及的k个变量是二值变量,个体间的距离
7、定义常用简单匹配系数、Jaccard系数。1.简单匹配系数:2.Jaccard系数怎样度量距离远近?个体xjk10个体xik1ab0cd1.所选择的变量应符合聚类的要求。2.各变量的变量值不应有数量级上的差异。为此常需对数据预先进行标准化处理后再进行聚类。3.各变量间不应该有较强的线性相关关系。常见的聚类方法有层次聚类法和K-Means聚类法等。聚类分析需注意以下几点:8.1.3层次聚类法8.1聚类分析层次(分层)聚类法又称系统聚类法(hierarchicalcluster),是聚类分析诸方法中用得最多的一种,它的基本步骤是:开始将
8、每一个样品各自单独作为一类,然后按照定义好的样品之间的距离(此时的类间距离等同于点间距离)进行计算,将距离最近的两个类合并成一个新类,这样类别相对于开始的时候就减少了一个再按照定义好的类间距离,计算这个新的类别与其他类之间的距离,结合
此文档下载收益归作者所有