SAS系统和数据分析判别分析

SAS系统和数据分析判别分析

ID:47623764

大小:654.00 KB

页数:70页

时间:2019-10-13

SAS系统和数据分析判别分析_第1页
SAS系统和数据分析判别分析_第2页
SAS系统和数据分析判别分析_第3页
SAS系统和数据分析判别分析_第4页
SAS系统和数据分析判别分析_第5页
资源描述:

《SAS系统和数据分析判别分析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、第三十八课判别分析判别分析方法的任务是根据己掌握的一批分类明确的样品,建立一个较好的判别函数,使得用此判别函数进行判别时错判事例最少,进而能用此判别函数对给定的一个新样品判别它来白哪个总体。判别分析(DiscriminateAnalysis)是用以判别个体所属类体的一种统计方法。它产生于20世纪30年代,近年来,在许多现代自然科学的各个分支和技术部门屮得到广泛的应用。判别分析方法通常要给出一个判别指标一一判别函数,同时还耍指定一种判别规则。下面我们介绍:•距离判别分析方法•Fisher线性函数判别方法一、距离判别分析如果假设每组内分布为多元正态分布,基于多元

2、正态分布理论的参数法将导出一个线性或二次的距离判别函数。否则,将采用不基于任何分布假设的非参数方法。1.贝叶斯理论距离判别分析利用贝叶斯理论计算样品X属于每一组的先验概率已知,且在X处的组密度可以估计时,属于某组的后验概率。设有£个组G

3、,G2,・・・,G「且组G,的概率密度为./;■(X),样品X来自组G,的先验概率为p「i=,2,・・・,k,满足工二门=1,那么根据贝叶斯理论,样品x属于组G,的后验概率为:P(GjIx)=Pif(x)(3&1)如果假设每组内P维样品X分布为p元正态分布情况,则有:(3&2)Gj〜Ni=2»…k其中,丛和乙•分别是第,

4、组的均值和协方差阵。此时,样品X来自组Gf的概率密度函数为:(38.3)ZU)=(2龙)诃2纭"2exp(_0.5/2(X,GJ)其中,=——)的几何意义为x到,组均值的平方距离。将式(38.3)代入式(38.1)可得:(38.4)pexp(—0.5/2(x,GJ忆J"EtPiexp(-0・5d;(x,GJ)5「"exp(-0.5D;OG))Hexp(-O.5D:(X,GJ)其中:(38.5)(3&6)(38.7)D-⑴=d](x)+gi+ht为从样品兀至第,组的广义平方距离。这里:=flogjLj若各组协方差阵纭不全相等g/=[0若各组协方差阵幼全相等J-

5、21og」p

6、若各组先验概率厂不全相等/=10若各组先验概率口全相等一个样品兀判归于第2•组,是因为样品x在这个i组得到的后验概率p(Gi

7、x)为最大值,或者这个样品x至第,组的广义平方距离D;(%)为最小值。这种判别哪个样品归属于哪个组的判别准则称为最大后验概率准则。如果此最大后验概率小于指定的阈值(threshold),则将样品兀判归于除広组以外的其他组。1.线性判别分析为简单起见,我们只考虑两个总体的情况。设有两个协方差/相同的正态总体&和G?,它们的分布分别是N(%,7)和N(“2,7)。现在对于一个新的样品y,我们要判断它来自哪个总体。最直观的方法

8、就是计算y到两个总体的距离〃(”GJ和〃(”G?),并按下述规则判断:如果d(y,Gl)d(y,G2),则yeG2.那么关键的问题是这里的距离函数怎么选。多元统计分析中最著名的一个距离是由马哈拉诺比斯(Mahalanobis)提出的,习惯上称为马氏距离。即y到母体的距离定义为:d(y,G,)=(尹-w,)V_,(y-%)(38.8)那么:d(y,GJ-eg,G2)=-2(y—他—“2)(38.9)若令:(38.10)w(p)=(y-妁;"2)0—I(叭一“2)上述判别规则可写成:当w(y)»0时,pwG];当

9、w(y)v0时,yeGlo若坷、“2和7已知,则W®)是歹的线性函数,称为线性判别函数。1.非线性判别分析如果协方差不同,即两个正态总体G和G?分别服从N(uJ)和NQS。现在对于一个新的样品尹,我们要判断它来自哪个总体。我们仍然按照样品至各母体的最近距离归类。即判别准则为:如果d(”GJ5d(/G2),则pwG;如果d(y,G})>d(y,G2)f则ywG2.其中:d(”GJ=O_%)pT(y_%),i=1,2(3&11)那么:d(y,Gl)-d(y,G2)=y(V^-)y-2y'(7~lu1-f/2~1w2)+uy^ux-u^^u2(38.12)这是一

10、个二次项判别函数。这样判别准则就变成为判断式(38.12)是取正还是取负的问题了。可见,当VX=V2=V时,我们得到了线性判别函数,因此使用线性判别函数判别;当人工人时,我们得到了二次判别函数,因此使用二次判别函数判别。一般情况下,我们并不知道两个总体的特征,即坷、“2和人、人是未知的,只有从两个总体中抽取样品,假设从两个总体各抽取了®和©个样品“宀,…,";必,丿2,…,儿,。使用线性判别函数还是二次判別函数进行判别分析収决于两个总体的方差。如果有vx=v2=v,就利用线性判别函数进行判别分析,否则,就利用二次判别函数判别。这样检验人与人是否相等就极为重要

11、了。假定:原假设HQ:Vl=V2备选假设则检验统计量

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。