欢迎来到天天文库
浏览记录
ID:58181466
大小:357.42 KB
页数:13页
时间:2020-04-26
《应用多元统计分析考试要点.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、1简述欧氏距离与马氏距离的区别和联系。答:设p维空间中的两点X=和Y=。则欧氏距离为。欧氏距离的局限有①在多元数据分析中,其度量不合理。②会受到实际问题中量纲的影响。设X,Y是来自均值向量为,协方差为的总体G中的p维样本。则马氏距离为D(X,Y)=。当即单位阵时,D(X,Y)==即欧氏距离。因此,在一定程度上,欧氏距离是马氏距离的特殊情况,马氏距离是欧氏距离的推广。2试述判别分析的实质。答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,…,Rk是p
2、维空间Rp的k个子集,如果它们互不相交,且它们的和集为,则称为的一个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p维空间构造一个“划分”,这个“划分”就构成了一个判别规则。3简述距离判别法的基本思想和方法。答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。①两个总体的距离判别问题设有协方差矩阵∑相等的两个总体G1和G2,其均值分别是m1和m2,对于一个新的样品X,要判断它来自哪个总体。计算新样品X到两个总体的马氏距离D2(X,G1)和D2
3、(X,G2),则X,D2(X,G1)D2(X,G2)X,D2(X,G1)>D2(X,G2,具体分析,记则判别规则为X,W(X)X,W(X)<0②多个总体的判别问题。设有个总体,其均值和协方差矩阵分别是和,且。计算样本到每个总体的马氏距离,到哪个总体的距离最小就属于哪个总体。具体分析,取,,。可以取线性判别函数为,相应的判别规则为若4简述贝叶斯判别法的基本思想和方法。基本思想:设k个总体,其各自的分布密度函数,假设k个总体各自出现的概率分别为,,。设将本来属于总体的样品错判到总体时造成的损失为,。设个总体相应的维样本空间为。在规则下,将属于的样品
4、错判为的概率为则这种判别规则下样品错判后所造成的平均损失为则用规则来进行判别所造成的总平均损失为贝叶斯判别法则,就是要选择一种划分,使总平均损失达到极小。基本方法:令,则若有另一划分,则在两种划分下的总平均损失之差为因为在上对一切成立,故上式小于或等于零,是贝叶斯判别的解。从而得到的划分为5简述费希尔判别法的基本思想和方法。答:基本思想:从个总体中抽取具有个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数系数可使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的个指标值代入线性判别函数式中求出值,然后根据判别一定的规则,就可以
5、判别新的样品属于哪个总体。6试析距离判别法、贝叶斯判别法和费希尔判别法的异同。答:①费希尔判别与距离判别对判别变量的分布类型无要求。二者只是要求有各类母体的两阶矩存在。而贝叶斯判别必须知道判别变量的分布类型。因此前两者相对来说较为简单。②当k=2时,若则费希尔判别与距离判别等价。当判别变量服从正态分布时,二者与贝叶斯判别也等价。③当时,费希尔判别用作为共同协差阵,实际看成等协差阵,此与距离判别、贝叶斯判别不同。④距离判别可以看为贝叶斯判别的特殊情形。贝叶斯判别的判别规则是X,W(X)X,W(X)6、)<0二者的区别在于阈值点。当,时,,。二者完全相同。7判别分析和聚类分析有何区别?答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n个样本,对每个样本测得p项指标(变量)的数据,已知每个样本属于k个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知7、道类的情况下进行分类。8试述系统聚类的基本思想。答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。9对样品和变量进行聚类分析时,所构造的统计量分别是什么?简要说明为什么这样构造?答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n个样本看作p维空间的n个点。点之间的距离即可代表样品间的相似度。常用的距离为(一)明氏距离:q取不同值,分为(1)绝对距离()(2)欧氏距离()(3)切比雪夫距离()(二)马氏距离(三)兰氏距离对变量的相似性,我们更8、多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。将变量看作p维空间的向量,一般用(一)夹角余弦(二)相关系数10在进行系统聚类时,不同类间距
6、)<0二者的区别在于阈值点。当,时,,。二者完全相同。7判别分析和聚类分析有何区别?答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n个样本,对每个样本测得p项指标(变量)的数据,已知每个样本属于k个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知
7、道类的情况下进行分类。8试述系统聚类的基本思想。答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。9对样品和变量进行聚类分析时,所构造的统计量分别是什么?简要说明为什么这样构造?答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n个样本看作p维空间的n个点。点之间的距离即可代表样品间的相似度。常用的距离为(一)明氏距离:q取不同值,分为(1)绝对距离()(2)欧氏距离()(3)切比雪夫距离()(二)马氏距离(三)兰氏距离对变量的相似性,我们更
8、多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。将变量看作p维空间的向量,一般用(一)夹角余弦(二)相关系数10在进行系统聚类时,不同类间距
此文档下载收益归作者所有