欢迎来到天天文库
浏览记录
ID:6823161
大小:352.00 KB
页数:13页
时间:2018-01-27
《sas系统和数据分析全随机设计kruskal-wallis秩和检验》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、第二十九课完全随机设计Kruskal-Wallis秩和检验一、完全随机设计的Kruskal-Wallis秩和检验方差分析过程关注三个或更多总体的均值是否相等的问题,数据是被假设成具有正态分布和相等的方差,此时F检验才能奏效。但有时采集的数据常常不能完全满足这些条件。在两两样本比较时,我们不妨尝试将数据转换成秩统计量,因为秩统计量的分布与总体分布无关,可以摆脱总体分布的束缚。在比较两个以上的总体时,广泛使用非参数的Kruskal-Wallis秩和检验,它是对两个以上的秩样本进行比较,本质上它是两样本时的Wilcoxon秩和检验
2、方法在多于两个样本时的推广。Kruskal-Wallis秩和检验,首先要求从总体中抽取的样本必须是独立的,然后将所有样本的值混合在一起看成是单一样本,再把这个单一的混合样本中的值从小到大排序,序列值替换成秩值,最小的值给予秩值1,有结值时平分秩值。将数据样本转换成秩样本后,再对这个秩样本进行方差分布,但此时我们构造的统计量KW不是组间平均平方和除以组内平均平方和,而是组间平方和除以全体样本秩方差。这个KW统计量是我们判定各组之间是否存在差异的有力依据。设有组样本,是第组样本中的观察数,是所有样本中的观察总数,是第组样本中的秩
3、和,是第组样本中的第个观察值的秩值。需要检验的原假设为各组之间不存在差异,或者说各组的样本来自的总体具有相同的中心或均值或中位数。在原假设为真时,各组样本的秩平均应该与全体样本的秩平均比较接近。所以组间平方和为组间平方和(29.1)恰好是刻画这种接近程度的一个统计量,除以全体样本秩方差,可以消除量纲的影响。样本方差的自由度为。所以,全体样本的秩方差为全体样本的秩方差===(29.2)上海财经大学经济信息管理系IS/SHUFEPage13of13==因此,Kruskal-Wallis秩和统计量KW为:(29.3)如果样本中存在
4、结值,需要调整公式(4.3.3)中的KW统计量,校正系数C为:(29.4)其中,第j个结值的个数。调整后的KWc统计量为:(29.5)如果每组样本中的观察数目至少有5个,那么样本统计量KWc非常接近自由度为的卡方分布。因此,我们将用卡方分布来决定KWc统计量的检验。例29.1某制造商雇用了来自三个本地大学的雇员作为管理人员。最近,公司的人事部门已经收集信息并考核了年度工作成绩。从三个大学来的雇员中随机地抽取了三个独立样本,见表29.1中的第2、4、6列所示。制造商想知道来自这三个不同的大学的雇员在管理岗位上的表现是否有所不同
5、。表29.1来自三个不同大学的雇员得分及统一秩值雇员大学A统一编秩大学B统一编秩大学C统一编秩12536095072701220270123609304609485171518015.5595204069018.569018.5355701278015.57514秩和组A秩和95组B秩和27组C秩和88为了计算KW统计量,我们首先必须将来自三个大学的20名雇员统一按考核成绩编排秩值,见表29.1中的第3、5、7列所示。本例中,7,6,7,20,上海财经大学经济信息管理系IS/SHUFEPage13of1395,27,88,3
6、,三个总体的考核成绩分布是相同的。我们用(29.3)式计算KW统计量为:用(29.4)式计算校正系数C,从表29.1中我们可以发现,相等成绩值和相等的个数分别为60分3个,70分3个,80分2个,90分2个。所以:调整后的KWc为:查表可知道,自由度为的卡方分布,在显著水平下,分布的上尾临界值为5.99,由于8.98>5.99,因此拒绝原假设。所以,秩和最低的B组至少与秩和最高的A组是不同的。一、freq频数过程Freq频数过程可以生成单向和n向的频率表和交叉表。对于双向表(二维表),该过程计算检验统计量和关联度。对于n向表
7、,该过程进行分层分析,计算每一层和交叉层的统计量。这些频数也能够输出到SAS数据集里。1.freq过程说明procfreq过程一般由下列语句控制:procfreqdata=数据集<选项>;by变量列表;tables交叉表的表达式选项>;weight变量;output<输出统计量列表>;run;该过程procfreq语句是必需的。其余语句是供选择的。另外,该过程只能使用一个output语句。2.procfreq语句的选项lorder=freq/data/internal/formatted——规定变量
8、水平的排列次序。freq表示按频数下降的次序,data表示按输入数据集中出现的次序,internal表示按非格式化值的次序(缺省值),formatted按格式化值的次序。lformachar(1,2,7)=‘三个字符’——规定用来构造列联表的轮廓线和分隔线的字符。缺省值为formachar
此文档下载收益归作者所有