ch11聚类与判别分析

ch11聚类与判别分析

ID:36321814

大小:201.50 KB

页数:28页

时间:2019-05-09

ch11聚类与判别分析_第1页
ch11聚类与判别分析_第2页
ch11聚类与判别分析_第3页
ch11聚类与判别分析_第4页
ch11聚类与判别分析_第5页
资源描述:

《ch11聚类与判别分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第十一章聚类与判别分析第一节聚类基础知识回顾第二节系统聚类法第三节动态聚类法第四节判别分析第一节聚类基础知识回顾基本概念聚类统计量无量纲化方法基本概念聚类分析概念:建立一种分类方法,它将一批样品或变量(指标),按照它们在性质上的相似、疏远程度进行科学的分类。第一节聚类基础知识回顾基本概念——聚类分析的方法在实际应用中聚类的方法有多种,最常用的是系统聚类法,按照不同的分类较常用的有以下几种:1、根据聚类过程不同分为:分解法和凝聚法2、根据聚类调整次数分为:静态聚类法和动态聚类法3、根据聚类的对象分为:Q型聚类和R型聚类第一节聚类基础知识回顾聚类统计量Q型聚类统计量绝对距离、欧氏

2、距离、明氏距离、切比雪夫距离、马氏距离、兰氏距离R型聚类统计量夹角余弦、相似系数、同号率第一节聚类基础知识回顾无量纲化方法1极差正规化法第一节聚类基础知识回顾标准化变换无量纲化方法2功效系数法相对化变换第二节系统聚类法系统聚类又称为分层聚类,它是在众多的聚类方法中应用最多的一种聚类方法。根据聚类过程不同又分为凝聚法和分解法。基本思想:距离最近或最相似的聚为一类。实施步骤选择参与分析的变量和标签变量选择进行的是R或Q聚类选择对数据进行无量纲化的方法Q聚类选择样本点距离的计算方法,R聚类选择变量相关系数的计算公式确定类与类距离的测量方法选择使用其它附加功能对输出结果进行合理的解释

3、第二节系统聚类法应用实例-Q型聚类数据背景为研究山东省2002年农村居民生活消费的分布规律,根据调查资料做类型划分。数据文件:农村居民消费支出2002.sav要求:第二节系统聚类法应用实例-R型聚类R型聚类是一种降维的方法,用于在变量众多时寻找有代表性的变量。(例如衣服尺寸变量的选择)选择代表性指标的方法:1.根据专业知识选择。2.利用计算确定第二节系统聚类法应用实例-R型聚类数据背景:有10个测试项目,分别用变量x1~x10表示,50名学生参加测试。(10项指标均为百分数)数据文件为:data14-03.sav要求:最长距离法、皮尔逊相关、输出相关阵、分成3组,找出3个代表

4、性变量。第二节系统聚类法选取分成三类的第三组代表性指标第三组包含的变量为X3、X8、X9、X10从相关系数矩阵中读取相关系数,计算各相关指数:第二节系统聚类法第三节动态聚类法动态聚类又叫快速聚类,其特点是处理速度快,占用内存少,适用于大样本的聚类分析。基本思想最终分类选凝聚点修改分类初始分类最近距离原则分类是否合理合否第三节动态聚类法实施步骤第一步:数据标准化(descriptives)第二步:选择参与分析的变量和标签变量第三步:确定分类数第四步:输入聚类中心点(凝聚点)第五步:确定迭代次数或收敛判据第六步:其他功能设置第七步:对输出结果进行合理的解释第三节动态聚类法应用实例

5、及参数说明数据背景:为研究山东省2002年农村居民生活消费的分布规律,根据调查资料做类型划分。数据文件:农村居民消费支出2002.sav凝聚点文件:标准化凝聚点.sav(注意文件格式)第三节动态聚类法注意问题快速聚类使用的是欧氏距离平方快速聚类变量必须是连续变量对数据一定事先考察有无量纲影响第三节动态聚类法第四节判别分析含义:判别分析就是解决在研究对象用某种法方法已经分成若干类(组)的情况下,确定新的观测数据(样本点)属于已知类别中哪一类的多元统计分析方法。基本思想:通常建立一个判别函数,来描述新样本点与已知组别的接近程度,从而决定样本归属。第四节判别分析方法分类:1、按判别

6、组数分:两组判别分析和多组判别分析2、按区分总体所用数学模型分:线性判别和非线性判别注:fisher判别是常用的线性判别3、按处理方法不同分:逐步判别、序贯判别等第四节判别分析实例分析数据背景:有三种鸢尾花的花瓣、花萼的长、宽数据。共搜集了三种鸢尾花,每种50个观测,共150个观测量的数据。建立判别函数,并判断花萼长50、花萼宽33、花瓣长14、花瓣宽2的鸢尾花属于哪一种?数据文件:data14-04.sav第四节判别分析判别结果将花萼长50、花萼宽33、花瓣长14、花瓣宽2的鸢尾花数据代入三个判别函数中得:F1=76.129(刚毛鸢尾花)F2=33.572(变色鸢尾花)F3

7、=-9.547(佛吉尼亚鸢尾花)F1最大,得出此种花属于刚毛鸢尾花。第四节判别分析无量纲化方法1none不进行标准化zscores把数值标准化到Z分数range0to1把数值标准化到0到1范围内(极差正规化),减去最小值,然后除以极差range-1to1把数值标准化到-1to+1范围内.第二节系统聚类法无量纲化方法2maximummagnitudeof1每个变量值除以每个变量的最大值meanof1每个变量值除以每个变量的均值standarddeviationof1把被标准化的变量或样品除以该项的标准差第

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。