资源描述:
《判别分析与聚类分析方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第八章判别和聚类分析第一节判别分析第二节聚类分析第八章判别和聚类分析第一节判别分析距离判别分析¢判别分析:根据已掌握的一批分类明确的Mahalanobis距离(统计距离)样品,建立一个判别函数,使得用此判别函数进行判别时错判事例最少,进而能用此判别函数对给定的新样品判别它来自哪个总体。距离判别分析方法Fisher线性函数判别方法EuclidVsMahalanobis按照Mahalanobis距离判别0.080.070.060.050.040.030.020.010505560657075808590951001理论基础:贝叶斯公式Bayes判别()2−1/2pexp−0.5d(x,G)Σiii
2、i设有k个组G1,G2,L,Gk,每一组的先验概率pi已后验估计p(Gi
3、x)=k()2−1/2∑pexp−0.5d(x,G)Σ知,且在x处的组G密度f(x)可以估计。样品i=1iiiiii2exp()−0.5D(x,G)属于组G的后验概率为:=iii∑k()2exp−0.5D(x,G)pf(x)i=1iiiip(G
4、x)=ik广义平方距离D2(x)=d2(x)+g+h∑=pf(x)iiiii1ii⎧Σlog若各组协方差阵不全相等Σiig=⎨设每组内样品为多维正态分布,那么i⎩0若各组协方差阵全相等Σi−p/2−1/22⎧−2logpp若各组先验概率不全相等f(x)=(2π)Σexp()−0.
5、5d(x,G)h=⎨iiiiiii0若各组先验概率全相等p⎩i2−1判别准则:(D与d稍有不同)d(x,G)=(x−μ)′Σ(x−μ)iiiii判x属于Gk,若p(Gk
6、x)最大(等价于D2k(x)最小)协方差相同:线性判别函数线性判别设有两个协方差相同的正态总体,且先验概45率相等,21=−′−−D(,)(xGxuVxu)()iiii4022uu12+−1DxGDxG(,)−=(,)−2(x−)′Vuu(−)1122122uu12+−135wx()(=−x)′Vuu(−)线性判别函数212判别准则:若w(y)≥0,则判定y属于G1.30−−111多类线性判别函数wxxVujj()=−'uVu
7、j'j)2判别规则:判给函数值最大的类。25注:这里V用pooledcovariance计算2010203040506070协方差不同:二次判别函数二次判别45Z(x)=-0.5D2(x)ii4035判别准则:若Zk(y)最大,则判定y属于Gk.30当各组方差相等,退化为线性判别函数2520102030405060702误判的概率Fisher判别(典型判别)样品x来自G,被误判来自G12G1G2uuxu12Fisher判别函数u-均值,V-方差应注意的几个问题求a,使得1aa′()uu−−uu()'判别分析方法首先根据已知所属组的样本给12122=maxaVV′(+)a出判别函数,并制定判别规
8、则,然后再判断12aVVuu=+()−1()−书上证明有错每一个新样品应属于哪一组。得到1212−1从马氏距离的角度来看统计量是很直观的。判别函数为:y=(V1+V2)(u1−u2)x这个距离越小,越倾向于接受假设;反之,样本Fisher判别函数这个距离越大,就越倾向于拒绝。−1y=(V+V)(u−u)x1212判别分析中各种误判的后果看作是相同的,本质上:Fisher判别函数是一个典型相关函而在假设检验中,犯两类错误的后果一般是数,将原始指标(高维)转化到典型相关指标不同的,通常将犯第一类错误的后果看得更(低维)严重些。SAS判别分析过程Discrim选项及语句procdiscrim<选项列
9、表>;method=normal
10、npar——当指定method=normal时,基class变量;于类内服从多元正态分布,并导出线性或二次判别函数;当指定method=npar时,采用非参数方法。by变量表;pool=no
11、test
12、yes——pool=test要求对组内协方差阵的齐性freq变量;的似然比检验进行Bartlett修正,线性判别函数会直接给id变量;出,而二次型判别函数需通过建立输出数据集方式获得。priors概率表;Outstat=数据集名——指定输出数据集名testclass变量;testdata=数据集名——指定欲分类观测的一般SAS数据集testfreq变量;test
13、out=数据集名——生成一个输出SAS数据集。testid变量;listerr表示要求仅仅输出由后验概率产生错误分类的那些样品点的有关信息var变量表;crosslisterr表示要求以交叉表的形式输出实际类别与分类结weight变量;果之间一致和不一致的有关信息。run;priors语句——指定先验概率3修改后的程序SAS典型Fisher判别分析candiscdatanewiris;/*测试新数