资源描述:
《非参数统计方法简介》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、非参数统计方法简介廖海仁2011.3.17提纲统计的稳健性参数统计vs非参数统计单总体位置参数的检验1)中位数的符号检验2)符号秩和检验分布的一致性检验:χ2检验两总体的比较与检验多总体的比较与检验统计之都论坛的一个帖子标题:心理统计求教,方差分析还是T检验呢?内容:问题是这样的:对我校4个年级的大学生适应心理进行分析,每个年级得出50组数据,现在要比较不同年级之间适应性的差异性,到底要用什么检验,用spss这样操作呢?小妹在此求教求真理,谢谢各位大哥了~!!回答一:一般与人的行为相关的数据都是偏态的分布,方差分析和t-test就不适用了吧统计的
2、稳健性指统计的一种性质:当真实模型与理论模型有不大的偏离时,统计方法仍能维持较为良好的性质,至少不致变得太坏。实际应用中总体的分布的假定的分布常略有偏离;大量的观测数据中常存在部分异常数据。(1)对总体分布的稳健性若性能与总体的正态性有较强的依赖关系者,如F检验,其稳健性较差;而与总体均值相关的统计方法,如t检验之类,其稳健性相对较好。(2)对异常数据的稳健性典型例子:样本均值估计总体均值,受异常数据影响较大,相对中位数与截断均值更不稳健。获得对异常数据稳健性的途径:a)设计有效的方法发现并剔除异常值;b)设计对个别异常数据不敏感的统计方法参数统
3、计vs非参数统计参数统计假设总体分布函数已知(大多数基于正态假设)或只带有一些未知参数非参数统计如果在一个统计问题中,如果其总体分布不能用有限个实数来刻画,只能对它做一些分布连续、有密度、具有某些矩等一般性的假定,则称为非参数统计问题。非参数方法的特点方法的适用面广而效率可能较低大样本理论占重要位置所谓大样本统计方法是指根据统计量的极限性质而得出的统计方法大样本理论依赖于概率论的极限理论从数据本身获取信息具有良好的稳健性基本概念秩(Rank):把样本X1,X2,…,Xn按大小排列为X(1)<=X(2)<=…<=X(n),若Xi=X(Ri),则称R
4、i为Xi的秩,全部n个秩构成秩统计量。秩统计量是非参数统计的一个主要工具。《StatisticalMethodsBasedonRank》E.L.Lehmann《OrderStatistics》H.A.David中位数(Median)均值(Mean)优点:(1)有时比数学期望更有代表性;(2)受少数异常值的影响很小(3)理论上总是存在性质:设X有概率密度函数f(x),另h(a)=E
5、X-a
6、,当a为X的中位数m时,h(a)达到最小值。缺点:(1)X1+X2的中位数与X1,X2的中位数缺乏简单联系,数学上处理复杂且不方便(2)中位数可能不唯一,对于
7、离散型,定义可能不理想(3)实际计算的复杂度远大于均值计算的复杂度样本数据分析的一般步骤数据探查R:plot,hist,boxplot分布的检验使用QQ图R:qqnorm,qqlineShapiro-WilkNormalitytest(正态分布检验)(适合小样本N<2000)R:shapiro.test(x)Kolmogorov-Smironovtest(K-S分布检验)(适合大样本)ks.test(x,"pnorm",mean=mean(x),sd=sqrt(var(x)))使用具体的假设检验方法:方差分析、T检验、非参数方法等中位数的符号检验
8、在总体分布为正态分布时,要检验其均值是否为μ,使用t检验:T=(X-μ)/(s/sqrt(n))~t(n-1)。当分布未知时,此方法可能有风险中位数检验:检验其中位数是否为M0H0:M=M0H1:M≠M0(双边假设检验)符号检验检验统计量:S+=#{Xi:Xi-M0>0,i=1,2,3,…,n}将其转化为二项分布检验:S+~binom(n,½)R实现:无直接函数,自己借用binom.test(s,n,p=0.5,…)符号秩和检验符号检验不足:不考察值的大小,不能检验出偏度非常大的分布(实例中的值明显偏大于6064,却没有检验出来)。符号秩和检验
9、(又称Wilcoxon符号秩检验)基本思想:考察
10、xi-M0
11、的秩,假定总体是连续的,且对其中位数是对称的,则W+=∑Ri(+)服从中点为n(n+1)/4的对称分布。符号秩和检验一般比符号检验更有效(强势)R:wilcox.test()可用来进行符号秩和检验wilcox.test(x,y=NULL,alternative=c("two.sided","less","greater"),mu=0,paired=FALSE,exact=NULL,correct=TRUE,conf.int=FALSE,conf.level=0.95,...)分布的一致
12、性检验:χ2检验用来检验数据分布是否与假设分布是否一致(拟合优度检验)H0:X具有分布FH1:X不具有分布F理论(Pearson定理)