欢迎来到天天文库
浏览记录
ID:61796834
大小:638.00 KB
页数:67页
时间:2020-02-06
《第10章_SPSS的聚类分析.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、统计分析与SPSS的应用第十章SPSS的聚类分析本章内容10.1聚类分析的一般问题10.2层次聚类10.3K-Means聚类10.1聚类分析的一般问题10.1.1聚类分析的意义聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法。聚类分析是一种建立分类的多元统计分析方法,它能够将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度(各变量取值上的总体差异程度)在没有先验知识(没有事先指定的分类标准)的情况下进行自动分类,产生多个分类结果。类内部的个体在特征上具有相似性,不同类间个体特征的差异性较大。8/6/20213第10章SPSS的聚类分析例如,学校里
2、有些同学经常在一起,关系比较密切,而他们与另一些同学却很少来往,关系比较疏远。究其原因可能会发现,经常在一起的同学的家庭情况、性格、学习成绩、课余爱好等方面有许多共同之处,而关系比较疏远的同学在这些方面有较大的差异性。为了研究家庭情况、性格、学习成绩、课余爱好等是否会成为划分学生小群体的主要决定因素,可以从有关这些方面的数据入手,进行客观分组,然后比较所得的分组是否与实际相吻合。对学生的客观分组就可采用聚类分析方法。8/6/20214第10章SPSS的聚类分析聚类分析中,个体之间的“亲疏程度”是极为重要的,它将直接影响最终的聚类结果。对“亲疏”程度的测度一般有两个角
3、度:第一,个体间的相似程度;第二,个体间的差异程度。衡量个体间的相似程度通常可采用简单相关系数等,个体间的差异程度通常通过某种距离来测度。为定义个体间的距离应先将每个样本数据看成k维空间的一个点,通常,点与点之间的距离越小,意味着他们越“亲密”,越有可能聚成一类,点与点之间的距离越大,意味着他们越“疏远”,越有可能分别属于不同的类。10.1.2聚类分析中“亲疏程度”的度量方法8/6/20215第10章SPSS的聚类分析例:下表是同一批客户对经常光顾的五座商场在购物环境和服务质量两方面的平均得分,现希望根据这批数据将五座商场分类。8/6/20216第10章SPSS的聚
4、类分析欧式距离(Euclideandistance)平方欧式距离(SquaredEuclideandistance)切比雪夫(Chebychev)距离Block距离1、定距型变量个体间距离的计算方式8/6/20217第10章SPSS的聚类分析2、计数变量个体间距离的计算方式卡方(Chi-Squaremeasure)距离Phi方(Phi-Squaremeasure)距离姓名选修课门数(期望频数)专业课门数(期望频数)得优门数(期望频数)合计张三9(8.5)6(6)4(4.5)19李四8(8.5)6(6)5(4.5)19合计17129388/6/20218第10章SPS
5、S的聚类分析3、二值(Binary)变量个体间距离的计算方式简单匹配系数(SimpleMatching)雅科比系数(Jaccard)个体j个体i101ab0cda为个体i与个体j在所有变量上同时取1的个数;d为同时取0的个数特点:排除同时拥有或同时不拥有某特征的情况;取0和1地位等价,编码方案的变化不会引起系数的变化。8/6/20219第10章SPSS的聚类分析姓名授课方式上机时间选某门课程张三111李四110王五001(张三,李四):a=2b=1c=0d=0d(x,y)=1/(1+2)=1/3(张三,王五):a=1b=2c=0d=0d(x,y)=2/(1+2)=2
6、/3张三距李四近8/6/202110第10章SPSS的聚类分析品质型个体间的距离根据临床表现研究病人是否有类似的病姓名性别发烧咳嗽检查1检查2检查3检查4张三男101000李四女101010王五男110000……..8/6/202111第10章SPSS的聚类分析雅科比(Jaccard)系数:适用二值变量个体j个体i101ab0cda为个体i与个体j在所有变量上同时取1的个数;d为同时取0的个数特点:排除同时不拥有某特征的情况;取1的状态比取0更有意义(如:临床检验中的阳性特征);编码方案会引起系数的变化8/6/202112第10章SPSS的聚类分析品质型个体间的距离
7、雅科比(Jaccard)系数:适用二值变量姓名授课方式上机时间选某门课程张三1(0)1(0)1(0)李四1(0)1(0)0(1)王五0(1)0(1)1(0)(张三,李四)1:a=2b=1c=0d=0d(x,y)=1/(1+2)=1/3(张三,李四)2:a=0b=0c=1d=2d(x,y)=1/(1+2)=1/3(相同)(张三,李四)1:a=2b=1c=0d=0J(x,y)=1/(1+2)=1/3(张三,李四)2:a=0b=0c=1d=2J(x,y)=1/1=1(不相同)8/6/202113第10章SPSS的聚类分析品质型个体间的距离Jaccard系数举例:根据临
此文档下载收益归作者所有