SAS讲义 第三十八课判别分析.doc

SAS讲义 第三十八课判别分析.doc

ID:55632204

大小:1.00 MB

页数:31页

时间:2020-05-21

SAS讲义 第三十八课判别分析.doc_第1页
SAS讲义 第三十八课判别分析.doc_第2页
SAS讲义 第三十八课判别分析.doc_第3页
SAS讲义 第三十八课判别分析.doc_第4页
SAS讲义 第三十八课判别分析.doc_第5页
资源描述:

《SAS讲义 第三十八课判别分析.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第三十八课判别分析判别分析方法的任务是根据已掌握的一批分类明确的样品,建立一个较好的判别函数,使得用此判别函数进行判别时错判事例最少,进而能用此判别函数对给定的一个新样品判别它来自哪个总体。判别分析(DiscriminateAnalysis)是用以判别个体所属类体的一种统计方法。它产生于本世纪三十年代,近年来,在许多现代自然科学的各个分支和技术部门中得到广泛的应用。判别分析方法通常要给出一个判别指标——判别函数,同时还要指定一种判别规则。下面我们介绍:l距离判别分析方法lFisher线性函数判别方法。一、距离判别分析如果假设

2、每组内分布为多元正态分布,基于多元正态分布理论的参数法将导出一个线性或二次的距离判别函数。否则,将采用不基于任何分布假设的非参数方法。1.贝叶斯理论距离判别分析利用贝叶斯理论计算样品属于每一组的先验概率已知,且在处的组密度可以估计时,属于某组的后验概率。设有个组,且组的概率密度为,样品来自组的先验概率为,满足,那么根据贝叶斯理论,样品属于组的后验概率为:(38.1)如果假设每组内维样品分布为元正态分布情况,则有(38.2)其中,和分别是第组的均值和协方差阵。此时,样品来自组的概率密度函数为:(38.3)其中,的几何意义为到组

3、均值的平方距离。将式(38.3)代入式(38.1)可得:(38.4)其中,(38.5)为从样品至第组的广义平方距离。这里(38.6)(38.7)一个样品判归于第组,是因为样品在这个组得到的后验概率为最大值,或者这个样品至第组的广义平方距离为最小值。这种判别哪个样品归属于哪个组的判别准则称为最大后验概率准则。如果此最大后验概率小于指定的阈值(threshold),则将样品判归于除组以外的其他组。1.线性判别分析为简单起见,我们只考虑两个总体的情况。设有两个协方差相同的正态总体和,它们的分布分别是和。现在对于一个新的样品,我们要

4、判断它来自哪个总体。最直观的方法就是计算到两个总体的距离和,并按下述规则判断:如果,则;如果,则。那么关键的问题是这里的距离函数怎么选。多元统计分析中最著名的一个距离是由马哈拉诺比斯(Mahalanobis)提出的,习惯上称为马氏距离。即到母体距离定义为(38.8)那么(38.9)若令(38.10)上述判别规则可写成:当时,;当时,。若、和已知时,则是的线性函数,称为线性判别函数。1.非线性判别分析如果协方差不同,即两个正态总体和分别服从和。现在对于一个新的样品,我们要判断它来自哪个总体。我们仍然按照样品至各母体的最近距离归

5、类。即判别准则为:如果,则;如果,则。其中(38.11)那么(38.12)这是一个二次项判别函数。这样判别准则就变成为判断式(38.12)是取正还是取负的问题了。可见当时,我们得到了线性判别函数,因此使用线性判别函数判别;当时,我们得到了二次判别函数,因此使用二次判别函数判别。一般情况下,我们并不知道两个总体的特征,即、和、是未知的,只有从两个总体抽取的样品,假设从两个总体各抽取了和个样品;。使用线性判别函数还是二次判别函数进行判别分析取决于两个总体的方差。如果有,就利用线性判别函数进行判别分析,否则,就利用二次判别函数判别

6、。这样检验与是否相等就极为重要了。假定:原假设备选假设则检验统计量为(38.13)其中,为估计合并协方差阵,为第组内的估计协方差阵。勃克斯指出近似服从自由度为的卡方分布,其中(38.14)(38.15)如果有,则在显著性水平a的意义下,拒绝原假设H0,而接受备选假设H1;反之,如果有,则在显著性水平a的意义下,接受原假设H0。在接受原假设H0的情况下,使用式(38.10)的线性判别函数进行判别分析;线性判别函数中的、和可分别由其无偏估计值代替:(38.16)其中,(38.17)(38.18)(38.19)在接受假设H1的情况

7、下,使用二次判别函数进行判别分析;二次判别函数中的、和、可分别由其无偏估计值代替:(38.20)(38.21)(38.22)(38.23)其实,可以很容易把距离判别推广到多个总体的情形。1.多类判别对于两类线性判别及非线性判别,都是求得一个判别函数,对于任一组样品(或待判别样品)将其代入判别函数,求得判别得分,再依判别分界点,而决定将其判属于哪一类。但是,许多实际问题所提出的可能是多类判别的问题。设有类(),每类中有,,…,组样品,每组样品有p个指标,并记。假设各组样品都是相互独立的正态随机变量,即(38.24)其中是第k类

8、的p个变量的数学期望(向量),矩阵是相应于第k类的p个变量的协方差矩阵,假定这个协方差矩阵是一样,即。我们要判别一组待判样品应属于g类中的哪一类。与两类判别同理,计算与各类的重心(平均向量)之间的Mahalanobis距离为(38.25)若有为最小,则判属于第j类。这里均值向量的估计式为(

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。