欢迎来到天天文库
浏览记录
ID:59233985
大小:49.00 KB
页数:40页
时间:2020-09-22
《第二章聚类分析ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第二章聚类分析【教学目的】通过本章的教学应使学生了解聚类分析的方法和作用,了解聚类分析中常用的距离和相似系数以及它们各自的特点及适用范围。掌握系统聚类法,能够应用系统聚类法解决实际数据分析问题。【教学重点】本章的重点是系统聚类法。聚类分析的概念聚类分析又称群分析、点群分析,是定量研究分类问题的一种多元统计方法。人类认识世界往往首先将被认识的对象进行分类,因此分类学便成为人类认识世界的基础科学。在社会生活的众多领域中都存在着大量的分类问题。以前人们主要靠经验和专业知识做定性分类处理,致使许多分类带有主观性和任意性,不能很好地揭示客观事物内在的本质差别与联系,特
2、别是对于多因素、多指标的分类问题,定性分类更难以实现准确分类。随着生产技术和科学的发展,人类的认识不断加深,分类越来越细,要求也越来越高,光凭经验和专业知识分类是不能取得令人满意的结果。为了克服定性分类存在的不足,于是把数学方法引进分类学中,形成了数值分类学,后来随着多元分析的引进,聚类分析又逐渐从数值分类学中分离出来,形成一个相对独立的分支。在多元统计分析中,聚类分析在许多领域中都得到了广泛的应用,取得了许多令人满意的成果。聚类分析的基本思想认为所研究的样品或指标之间存在着程度不同的相似性,于是根据一批样品的多个观测指标,找出能够度量样品或变量之间相似程度
3、的统计量,并以此为依据,采用某种聚类法,将所有的样品或变量分别聚合到不同的类中,使同一类中的个体有较大的相似性,不同类中的个体差异较大。聚类分析的内容聚类分析包括很多种方法,系统聚类法是最基本、最常用的一种,此外还有有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等,不同的方法适合解决不同类型的问题,本章主要介绍最常用的系统聚类法。聚类分析的对象类型Q型聚类是对样品进行分类,即对观测进行分类。根据观测有关变量的特征,将特征相似的样品归为一类。它是聚类分析中用的最多的一种,具有以下优点:1.可综合利用多个变量的信息对样品进行分类;2.分类结果直观
4、,聚类谱系图非常清楚地表现分类结果;3.所得结果比传统分类方法更细致、全面、合理。R型聚类是对变量进行分类处理。一般来说,可以反映研究对象特点的变量有许多,由于对客观事物的认识有限,往往难以找出彼此独立且有代表性的变量,影响对问题进一步的认识和研究,因此往往需要先进行变量聚类,找出相互独立又有代表性的变量,而又不丢失大部分信息。R型聚类分析的主要作用:1.可了解个别变量之间及变量组合之间的亲疏程度;2.根据变量的分类结果以及它们之间的关系,可以选择主要变量进行回归分析或Q型聚类分析。事物之间的相似性测度聚类分析用于系统类群相似性的研究,其实质上是寻找一种能客
5、观反映样品或变量之间亲疏关系的统计量,然后根据这种统计量把样品或变量分成若干类。常用的统计量有距离和相似系数。用相似系数度量是两个事物离得多近的度量。性质越接近的元素其相似系数的绝对值越接近于1;彼此无关的元素其相似系数的绝对值越接近于0。相似的元素归为一类,不相似的元素归为不同的类。用距离来度量是两个事物离得多远的度量。将一个样品看作空间的一个点,在空间定义距离,距离近的点归为一类,距离远的点归为不同的类。变量类型的划分1.间隔尺度:是用连续的实值变量来表示的,是由测量或计数、统计所得到的量。如:经济统计数字、抽样调查数据、身高、体重、年龄、速度、压力等。
6、2.有序尺度:没有明确的数量表示,而是划分一些等级,等级之间有次序关系。如:毕业论文成绩有:优、良、中、及格、不及格之分;体质状况有好、中、差三个等级;某产品质量可分为一等品、二等品、三等品三个等级等。3.名义尺度:既没有数量表示,也没有次序关系,而是表现为某种状态,其值通常是非数值数据。如:性别有男、女;颜色有红、黄、蓝、绿等;医疗诊断中的阴性、阳性等。不同类型的变量,其距离和相似系数的定义方法有很大差异。用得较多的是间隔尺度,因此只介绍间隔尺度的距离和相似系数的定义。n个样品p项指标形成的原始数据资料矩阵中,每一行表示一个样品,每一列表示一个变量。因此,
7、两个样品的相似性可用矩阵中两行的相似程度来刻划;两个变量的相似性可用矩阵中两列的相似程度来刻划。1.距离定义:将n个样品看成p维空间中的n个点,两个样品间相似程度可用p维空间中两点的距离来度量。(1)明氏距离(2)马氏距离(3)兰氏距离计算出任何两个样品之间的距离排成距离阵D,根据D可对n个点进行分类,距离近的点归为一类,距离远的点归为不同的类。2.相似系数:将n个样品看成p维空间中的n个向量。(1) 夹角余弦(2)相关系数以上是样品分类常用的距离和相似系数定义,它是在p维空间中来研究n个样品间的相似;而对变量分类是在n维空间中来研究p列变量间
8、的相似,其相似性也用距离和相似系数来度量。在实际问题
此文档下载收益归作者所有