欢迎来到天天文库
浏览记录
ID:43587342
大小:512.13 KB
页数:19页
时间:2019-10-11
《应用统计复习总结重点》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、聚类分析•做聚类分析时,层次聚类法、K・均值聚类法、以及两步聚类法三种方法。应该如何选择层次聚类法、K・均值聚类法?首先看数据类型:如果参与分类的变量是连续变量,则三种方法都适用;如果变量屮包含离散变量,则需要先对离散变量进行标准化处理,否则应该适用两步聚类法。再看数据量:当数据量较少时(如V100),三种方法都适用;当数据量较多时(如>1000),则应该考虑K-均值法或者两步聚类法。最后看分类对象:对样本分类,三种方法都适用;对变量分类,应选择层次聚类法。•Q聚类主要针对什么进行分类?R聚类主要针对什
2、么分类?Q聚类:样本R聚类:变量•对样本进行聚类分析中,点间距离的计算有多种不同的计算公式,试写出三个不同的距离公式。欧式距离Euclidean平方欧式距离SquaredEuclideanP£(兀-XT1=1块距离Block1=切比雪夫距离Chebychevmax
3、乞—xMinkovski距离马氏距离J(兀一必)日(兀一必)•对变量进行聚类分析中,有哪两种测度相似度的方法?夹角余弦工1cos)i=Pearson相关系数工(兀-元)(x-刃层次聚类法(系统聚类法)计算类间距离有多种方法,试写出两种方法。
4、在聚类分析中,两个样品之间的距离主要有哪些种定义方法?各有什么特点?最短距离法(Nearestneighbor)2=mindti最长距离法(Furthestneighbor)—maxdit审心法(Centroidclustering)组间平均距离(Between-groupslinkage)D口一XIX离差平方和法(Ward’smethod)D詐g-Wh最短距离法(最近邻法):首先合并最近的或最相似的两类,用两类间最近点的距离代表类间的距离。最长距离法:用两类问最远点的距离代表两类之I'可的距离。重心法
5、:用两个类别的重心Z间的距离来表示两个类别Z间的距离。组间平均距离法:SPSS默认,是用两个类别中间各个数据点之间的距离的平均來表示两个类别之间的距离,既不是最大距离也不是最小距离。离差平方和距离法:常用,使各类别屮的离差平方和较小,而不同类别Z间的离差平方和较大。K・均值聚类是针对样品(CASE)的聚类还是针对变量的聚类?K•均值聚类是否需要在聚类之前先做标准化处理?K■均值聚类是针对样品(case)的聚类,需要单独做标准化处理,而后再进行聚类。层次聚类事先不需要确定要分多少类,聚类过程一层层进行,最
6、后得出所有可能的类别结果,研究这根据具体情况确定最后需要的类别。该方法可以绘制出树状聚类图,方便使用者直观选择类别,但其缺点是计算量较大,对大批量数据的聚类效率不高K■均值聚类事先需要确定要分的类别数据,计算量要小得多,效率比层次聚类要高,也被称为快速聚类(quickcluster)要求在用于聚类的全部样本中,选择K个样本作为K个类别的初始聚类中心K•均值聚类法是根据事先确定的K个类别反复迭代直到把每个样本分到指定的里类别中。类别数目的确定具有一定的主主观性,究竟分多少类合适,需要研究者对研究问题的了解
7、程度、相关知识和经验系统聚类和快速聚类的特点分别是什么?系统聚类事先不确定要分多少类,而是先把每一个对象作为一类,然后一层一层进行分类。根据运算的方向不同,层次聚类法又分为合并法和分解法,两种方法的运算原理一样,只是方向相反。(事先无须知道分类对象的分类结构,而只需要一批数据;然后选好分类统计量,并按一定的方法步骤进行计算;最后便能自然地、客观地得到一张完整的分类系统图。)快速聚类法是根据事先确定的K个类别反复迭代直到把每个样本分到指定的里类别中。类别数目的确定具有一定的主主观性,究竟分多少类合适,需要
8、研究者对研究问题的了解程度、相关知识和经验。(处理速度快,占用内存少,适用于大样本的聚类分析。)七个样品之间的相似系数矩阵如下,试对这七个样品进行聚类,并画出谱系图。121r120.51130.940.8340.810.9150.970.0160.200.677、0.240.41答案:34510.8610.540.7410.920150.520.200.300.166710.241丿7卩0.97卩0.94^0.92心0.92心0.82STEPCHSTEP03Step04Step05对待判样品判别归类。判
9、别分析•简述Fishels判别的原理。建立Fisher判别函数的准则是什么?Fisher判别,亦称典则判別,是将自变量投影到较低维度的空间,再进行分类。相当于将自变量先提取几个主成分,只需根据主成分分类。Fisher准则:使得综合指标Z在A类的均数乙与在b类的均数耳的差异乙—厶尽可能大,而两类内综合指标Z的变异S:+S;尽可能小)•对Bayes判别法与Fisher判别法作比较一⑴—(2)—(k)(1)当k个总体的均值向量兀,兀,…,X共线
此文档下载收益归作者所有