上机实验指导四 判别分析

上机实验指导四 判别分析

ID:13016435

大小:87.50 KB

页数:8页

时间:2018-07-20

上机实验指导四 判别分析_第1页
上机实验指导四 判别分析_第2页
上机实验指导四 判别分析_第3页
上机实验指导四 判别分析_第4页
上机实验指导四 判别分析_第5页
资源描述:

《上机实验指导四 判别分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、上机实验指导四:判别分析实验目的与要求1.通过上机操作使学生掌握判别分析方法在SAS软件中的实现,了解判别方法的分类、适用条件和结果验证方法;2.要求学生熟悉判别分析的用途和操作,重点掌握对软件处理结果的解释和如何使用分析结果对新样品进行分类;实验每组人数及学时:组人数1人,学时数:4学时2010.12.16与2010.12.30实验要求:要求每位实验人员于课堂时间完成相关练习实验环境:装有版本8.0以上的SAS系统的个人电脑实验类型:设计型实验内容与步骤判别分析和聚类分析有相似的作用,都是起到分类的作用。但是,判别分析是已知分类

2、然后总结出判别准则,是一种有指导的学习;而聚类分析则是有了一批样本,不知道它们的分类,甚至连分成几类也不知道,希望用某种方法把观测进行合理的分类,使得同一类的观测比较接近,不同类的观测相差较多,这是无指导的学习。判别分析是用于判断个体所属类别的一种统计方法。根据已知观测对象的分类和若干表明观测对象特征的变量值,建立判别函数和判别准则,并使其错判率最小,对于一个未知分类的样本,将所测指标代入判别方程,从而判断它来自哪个总体。当然,这种准则在某种意义上是最优的,如错判概率最小或错判损失最小等。其前提是总体均值有显著差异,否则错分率大,

3、判别分析无意义。例如,我们有了患胃炎的病人和健康人的一些化验指标,就可以从这些化验指标发现两类人的区别,把这种区别表示为判别公式,然后对怀疑患胃炎的人就可以根据其化验指标用判别公式诊断。在SAS系统中没有现成的菜单操作,须通过编程来实现判别分析。SAS/STAT模块中实现判别分析的过程有: Discrim,实现最基本的判别分析;Candisc,将判别分析与典型相关分析相结合;Stepdisc,逐步判别分析,是一个变量的筛选过程。 (一)DISCRIM过程的语句说明 SAS/STAT的DISCRIM过程可以使用参数判别分析方法和非参

4、数判别分析方法进行判别分析。参数方法假定每个类的观测来自(多元)正态分布总体,各类的分布的均值(中心)可以不同。非参数方法不要求知道各类所来自总体的分布,它对每一类使用非参数方法估计该类的分布密度,然后据此建立判别准则。参数方法的判别准则为:先决定是使用合并协方差阵还是单个类的协方差阵,计算到各组的广义距离,把判入最近的组;或者计算属于各组的后验概率,把判入后验概率最大的组。SAS/STAT的DISCRIM过程一般格式如下:    PROCDISCRIMDATA=输入数据集选项;   CLASS分类变量;   VAR判别用自变量集

5、合;   RUN;              其中,PROCDISCRIM语句的选项中“输入数据集”为训练数据的数据集,包括一个分类变量(在CLASS语句中说明)和用来建立判别公式的自变量集合(在VAR语句中说明)。可以用“TESTDATA=数据集”选项指定一个检验数据集,检验数据集必须包含与训练数据集相同的自变量集合,用训练数据集产生判别准则后将对检验数据集中的每一个观测给出分类值,如果这个检验数据集中有表示真实分类的变量可以在过程中用“TESTCLASS分类变量”语句指定,这样可以检验判别的效果如何。用“OUTSTAT=数据集

6、”指定输出判别函数的数据集,后面可以再次用DISCRIM过程把输出的判别函数作为输入数据集(DATA=)读入并用它来判别检验数据集(TESTDATA=)。用“OUT=数据集”指定存放训练样本及后验概率、交叉确认分类的数据集。用“OUTD=数据集”指定训练样本及组密度估计数据集。用“TESTOUT=数据集”指定检验数据的后验概率及分类结果。用“TESTOUTD=数据集”输出检验数据及组密度估计。PROCDISCRIM语句还有一些指定判别分析方法的选项。用METHOD=NORMAL或NPAR选择参数方法或非参数方法。用POOL=NO或

7、TEST或YES表示不用合并协方差阵、通过检验决定是否使用合并协方差阵、用合并协方差阵。如果使用非参数方法,需要指定“R=核估计半径”选项来规定核估计方法或者指定“K=最近邻个数”来规定最近邻估计方法。PROCDISCRIM语句有一些规定显示结果的选项。用LISTERR显示训练样本错判的观测。用CROSSLISTERR显示用刀切法对训练样本判别错判的观测。用LIST对每一观测显示结果。用NOCLASSIFY取消对训练样本的分类检验。用CROSSLIST显示对训练样本的刀切法的判别结果。用CROSSVALIDATE要求进行交叉核实。

8、当有用“TESTDATA=”指定的检验数据集时用TESTLIST选项显示检验数据集的检验结果,当有TESTCLASS语句时用TESTLISTERR可以列出检验样本判错的观测,用POSTERR选项可以打印基于分类结果的分类准则的后验概率错误率估计。用

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。