SAS学习系列36.判别分析

SAS学习系列36.判别分析

ID:47504661

大小:1.09 MB

页数:31页

时间:2020-01-12

SAS学习系列36.判别分析_第1页
SAS学习系列36.判别分析_第2页
SAS学习系列36.判别分析_第3页
SAS学习系列36.判别分析_第4页
SAS学习系列36.判别分析_第5页
资源描述:

《SAS学习系列36.判别分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、.36.判别分析(一)基本原理判别分析,是用以判别个体所属类的一种统计方法。其原理是根据已掌握的一批分类明确的样品,建立一个较好的判别函数,使得用该判别函数进行判别时错判事例最少,进而能用此判别函数对给定的一个新样品判别它来自哪个总体。判别分析方法通常要给出一个判别指标(判别函数),同时还要指定一种判别规则。一、距离判别法未知总体的样品x离哪个总体的距离最近,就判断它属于哪个总体。1.对于两个正态总体G1,G2距离选用马氏(Mahalanobis)距离:d2(x,G1)=(x-μ1)T∑1-1(x-μ1)d2(x,G2)=(x-μ2)T∑2-1(x-

2、μ2)其中,μ1,μ2,∑1,∑2分别为总体G1,G22的均值和协差矩阵。令W(x)=d2(x,G1)-d2(x,G2)称为判别函数,若∑1=∑2时,W(x)是线性函数,此时称为线性判别;若∑1≠∑2,W(x)是二次函数。word教育资料.2.多总体情况设有m个总体:G1,…,Gm,其均值、协差阵分别为μi,∑i.对给定的样品x,按距离最近的准则对x进行判别归类:首先计算样品x到m个总体的马氏距离di2(x),然后进行比较,把x判归距离最小的那个总体,即若dh2(x)=min{di2(x)

3、i=1,…,m},则x∈Gh.二、Fisher线性函数判别法

4、为了方便使用,需要寻找尽量简单的判别函数,其中在Fisher准则下的线性判别函数就是只利用总体的一、二阶矩就可求得的判别函数。图1Fisher线性判别分析示意图下面以两个总体为例来说明Fisher判别的思想。设有两个总体G1、G2,其均值分别为m1和m2,协方差阵分别S1和S2,并假定S1=S2=S,考虑线性组合:y=LTx。通过寻求合适的Lword教育资料.向量,使得来自两个总体的数据间的距离较大,而来自同一个总体数据间的差异较小。为此,可以证明,当选L=cS–1(m1–m2),其中c¹0时,所得的投影即满足要求。从而称c=1时的线性函数:y=LT

5、x=(m1–m2)TS–1x为Fisher线性判别函数。其判别规则为:其中,m为两个总体均值在投影方向上的中点,即三、贝叶斯判别法设m个总体G1,…,Gm,其分布密度分别为f1(x),…,fm(x),各自的先验概率(可以根据经验事先给出或估出)分别为q1,…,qm,显然当抽取了一个未知总体的样品x,要判断它属于哪个总体,可用著名的贝叶斯公式计算x属于第j个总体的后验概率:若则判断x属于第h个总体。word教育资料.或者计算按先验概率加权的误判平均损失:其中,C(j

6、i)为假定本来属于Gi的样品被判为属于Gj时造成的损失,当然C(i

7、i)=0,C(j

8、

9、i)³0.再比较这m个误判平均损失的h1(x),…,hm(x)的大小,选取其中最小的,就可以判定样品x来自该总体。在实际问题中,错判的损失可以给出定性分析,但很难用数值来表示,但应用贝叶斯判别法时,要求定量给出C(j

10、i),C(j

11、i)的赋值。通常:根据经验人为赋值;假定各种错判的损失都相等。错判概率当样品xÎGi,用判别法判别时,把x判给Gj(i≠j),出现错判。用P(j

12、i))表示实属Gi的样品错判为Gj的概率。广义平方距离判别法在正态总体的假定下,按贝叶斯判别的思想,在错判造成的损失认为相等的情况下得到的判别函数,其实就是马氏距离判别法在考虑先

13、验概率及协方差阵是否相等情况下的推广,故在SAS的DISCRIM过程中称为广义平方距离判别法。四、逐步判别法所有变量中,有的变量对区分kword教育资料.个总体的判别能力可能很强,有的可能很弱。如果不加区别地用全部变量来建立判别函数,则必增加大量的计算,还可能因为变量间的相关性引起计算上的困难(病态或退化等)及计算精度的降低。另一方面由于一些对区分k个总体的判别能力很小的变量的引入,产生干扰,致使建立的判别函数不稳定,反而影响判别效果,因此自然提出一个变量的选择问题。即如何从m个变量中挑选出对区分k个总体有显著判别能力的变量,来建立判别函数,用以判别

14、归类。1.各变量判别能力的检验筛选判别变量和做逐步判别,都需要检验各变量的判别能力。若第i个分量间没有显著差异时,说明相应的变量Xi对判别分类不起作用,应该剔除。变量判别能力的度量通常采用删去该变量后考察判别能力的变化,即考察该变量对区分k个类是否能提供更多的附加信息,然后由附加信息构造F统计量进行检验。利用F统计量对假设(H0:第i个变量在k个总体中的均值相等)作统计检验。若否定H0,表示变量Xi对区分k个总体的判别能力是显著的(在显著水平α下)。否则,变量Xi对区分k个总体的判别能力不能提供附加信息,这个变量应剔除。2.基本思想word教育资料.

15、逐个引入变量,每次把一个判别能力最强的变量引入判别式,每引入一个新变量,对判别式中的老变量逐个进行检验,如其

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。