应用统计复习重点

应用统计复习重点

ID:31582236

大小:508.08 KB

页数:19页

时间:2019-01-14

应用统计复习重点_第1页
应用统计复习重点_第2页
应用统计复习重点_第3页
应用统计复习重点_第4页
应用统计复习重点_第5页
资源描述:

《应用统计复习重点》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、聚类分析l做聚类分析时,层次聚类法、K-均值聚类法、以及两步聚类法三种方法。应该如何选择层次聚类法、K-均值聚类法?首先看数据类型:如果参与分类的变量是连续变量,则三种方法都适用;如果变量中包含离散变量,则需要先对离散变量进行标准化处理,否则应该适用两步聚类法。再看数据量:当数据量较少时(如<100),三种方法都适用;当数据量较多时(如>1000),则应该考虑K-均值法或者两步聚类法。最后看分类对象:对样本分类,三种方法都适用;对变量分类,应选择层次聚类法。lQ聚类主要针对什么进行分类?R聚类主要针对什么分类?Q聚类:样本R聚类:变量l对样本

2、进行聚类分析中,点间距离的计算有多种不同的计算公式,试写出三个不同的距离公式。欧式距离Euclidean平方欧式距离SquaredEuclidean块距离Block切比雪夫距离ChebychevMinkovski距离马氏距离l对变量进行聚类分析中,有哪两种测度相似度的方法?夹角余弦Pearson相关系数l层次聚类法(系统聚类法)计算类间距离有多种方法,试写出两种方法。l在聚类分析中,两个样品之间的距离主要有哪些种定义方法?各有什么特点?最短距离法(最近邻法):首先合并最近的或最相似的两类,用两类间最近点的距离代表类间的距离。最长距离法:用两类

3、间最远点的距离代表两类之间的距离。重心法:用两个类别的重心之间的距离来表示两个类别之间的距离。组间平均距离法:SPSS默认,是用两个类别中间各个数据点之间的距离的平均来表示两个类别之间的距离,既不是最大距离也不是最小距离。离差平方和距离法:常用,使各类别中的离差平方和较小,而不同类别之间的离差平方和较大。lK-均值聚类是针对样品(CASE)的聚类还是针对变量的聚类?K-均值聚类是否需要在聚类之前先做标准化处理?K-均值聚类是针对样品(case)的聚类,需要单独做标准化处理,而后再进行聚类。层次聚类事先不需要确定要分多少类,聚类过程一层层进行,

4、最后得出所有可能的类别结果,研究这根据具体情况确定最后需要的类别。该方法可以绘制出树状聚类图,方便使用者直观选择类别,但其缺点是计算量较大,对大批量数据的聚类效率不高K-均值聚类事先需要确定要分的类别数据,计算量要小得多,效率比层次聚类要高,也被称为快速聚类(quickcluster)要求在用于聚类的全部样本中,选择K个样本作为K个类别的初始聚类中心K-均值聚类法是根据事先确定的K个类别反复迭代直到把每个样本分到指定的里类别中。类别数目的确定具有一定的主主观性,究竟分多少类合适,需要研究者对研究问题的了解程度、相关知识和经验l系统聚类和快速聚

5、类的特点分别是什么?系统聚类事先不确定要分多少类,而是先把每一个对象作为一类,然后一层一层进行分类。根据运算的方向不同,层次聚类法又分为合并法和分解法,两种方法的运算原理一样,只是方向相反。(事先无须知道分类对象的分类结构,而只需要一批数据;然后选好分类统计量,并按一定的方法步骤进行计算;最后便能自然地、客观地得到一张完整的分类系统图。)快速聚类法是根据事先确定的K个类别反复迭代直到把每个样本分到指定的里类别中。类别数目的确定具有一定的主主观性,究竟分多少类合适,需要研究者对研究问题的了解程度、相关知识和经验。(处理速度快,占用内存少,适用于

6、大样本的聚类分析。)l七个样品之间的相似系数矩阵如下,试对这七个样品进行聚类,并画出谱系图。答案:判别分析l简述Fisher’s判别的原理。建立Fisher判别函数的准则是什么?Fisher判别,亦称典则判别,是将自变量投影到较低维度的空间,再进行分类。相当于将自变量先提取几个主成分,只需根据主成分分类。Fisher准则:使得综合指标Z在A类的均数与在B类的均数的差异尽可能大,而两类内综合指标Z的变异尽可能小)l对Bayes判别法与Fisher判别法作比较(1)当k个总体的均值向量共线性程度较高时,Fisher判别法可用较少的判别函数进行判别

7、,因而比Bayes判别法简单。另外,Fisher判别法未对总体的分布提出什么特定的要求。(2)Fisher判别法的不足是它不考虑各总体出现概率的大小,也给不出预报的后验概率及错判率的估计以及错判之后造成的损失。而这不足恰是Bayes判别法的优点,但值得指出的是,如果给定的先验概率不符合客观实际时,Bayes判别法也可能会导致错误的结论。l判别分析的求解步骤l常用判别方法1)距离判别法:基本思想是,先根据已知分类的数据,分别计算各类的重心,然后计算待判样本与各类的距离,与哪一类距离最近,就判待判样本x属于哪一类。判别函数为:W(x)=D(x,G

8、2)-D(x,G1)判别准则为:注意:距离一般采用马氏距离;适合对自变量均为连续变量的情况进行分类;对各类的分布无特定的要求。2)Fisher判别法:基本思想是通过

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。