欢迎来到天天文库
浏览记录
ID:53009057
大小:188.07 KB
页数:5页
时间:2020-04-11
《体育测量中剔除异常数据的方法.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、体育测量中剔除异常数据的方法韩秀英(山东省财政学院体育教育学院,济南250014)体育测量涉及的范围非常广泛。其中包括定性测量,如心理测验、知识水平测验、智力测验等。也包括定量测量,如身体形态测量、身体机能测量、身体素质测量、某些运动技术测量等。在实际测量工作中,由于各种偶然以及人为因素使得统计结果不准确,常常会产生异常数据,这直接影响统计数据的质量,进而导致统计结果不准确,甚至错误,因此有必要寻找合适的方法来发现和处理这些数据。统计学界为解决这一问题已进行了许多积极的探讨,但是,迄今为止,还没有一种对任何情况都适应的方法。查阅大量的
2、文献资料发现,目前,统计学上在对单个指标检验小样本的方法较多,且检测效果较好,主要有以下几种检验方法。1.3叮准则3仃准则是最常用也最为简单的判别异常值的准则,对于某一样本其总体呈正态分布时,落在3盯(仃为标准差)或4or以外的残余误差概率小于0.3%或0.007%,故发现样本中有大于3叮的残余误差时,说明造成该残余误差的值出现的概率小于千分之三,可结合专业知识决定取舍;如果发现样本中有大于4or的残余误差时,说明造成该残余误差的值出现的概率小于十万分之七,可以认为该值为异常值,予以剔除。设某一样本dl,d2,d3,⋯⋯dn,可计算某
3、一值dj的误差与标准差盯进行比较,即:孑=三yZ慰管‘‘O=如果aj-d>3叮或4tr时则为异常值,否则为正常值。由于总体标准差和均值皆由样本估计得来,因此该准则主要适用于大样水中异常值的剔除。2.t检验准则当样本数较小时,片J样本来估计总体均数及标准差误差较大,此时按t分布的实际误差分布范围来判别异常值较为合理。其基本思想是首先剔除一个异常的值,然后按t分布来检验被剔除的值是否为异常值【28】。一设该样本为dl,d2,d3,⋯⋯,dn,若认为dj为异常值,计算将其剔除后的均值d及标准差or,即:万=上一d二,l—ll:l‘740=若
4、Id.djl>K(n,a),则dj为异常值,剔除dj是正确的,否则为正常值,应予以保留。这里a为显著度,n为样本数,K(n,a)为检验系数,表1给出不同样本和显著度时的k值。表1t检验系数K(n,a值3.Crubbs准则设某样本为dl,d2,d3,⋯⋯,dn,当di服从正态分布时,其均值d和标准差盯为:万={}喜喀O2为了检验di(i=l,2,⋯⋯,n)中是否存在异常值,将di按大小顺序排列成顺序统计量d(i),即:d(1)5、gO(n,a)。若认为d(1)异常,则g(X)=d.d(1)仃,若认为d(n)异常,则g(n)--d(n)-d叮,当g(i)>90(n,a)时,则判断该值d(i)为异常值,应予以剔除,否则d(i)为正常值,n,a意义同前,表2给出Crubbs准则不同样本和显著度时的临界值go(n,a)。75一一一一表2一C.r.ubbs准则f临界值90(I-’。)11a--0.05a--0.01na=0.05a--0.0131.151.16172.482.7841.461.49’182.502.8251.671.75192.532.8561.821.6、94202.562.8871.942.102l2.582.9l82.032.22222.602.9492.1l2.32232.622.96102.182.4l242.“2.99ll2.232.48252.663.01122.282.55262.743.10.132.332.61352.8l3.18142.372.66402.873.24152.412.70502.963.34162.442.751003.173.592.1.4Dixon准则该准则采用极差比的方法,得到简化而严密的结果,从而避免了前面几种准则需先求出样本标准差盯的麻烦。7、仍设样本为dl,d2,d3,⋯⋯,dn,其顺序统计量为d(i),则d(1)为最小值,d(n)为最大值,当di服从正态分布时,Dixon得出最大值d(n)的统计量分布为:r10=d(n)-d(n-I)d(n)-d(1)1"il=妇(n)-d(n-!)d(n)-d(2)r21=d(n)-d(n一2)d(n).d(2)1"22=d(n)-d(n一2)d(n)-d(3)对于最小值d(1),其统计量分布为:rlo=d(1)-d(2)d(1)-d(n)I'll=d(1)_d(2)d(1)-d(n一1)r2l=d(1).d(3)d(1)-d(n-I8、)r22=d(1)-d(3)d(1)_d(11-2)当显著度a为o.05或o.ol时,其临界值为r0帆a)o如果某样本的统计量rij>J摒值r0缸。)时,则d(。)或d(i)异常值,否则为正常值,i,J可根据样本的大小进
5、gO(n,a)。若认为d(1)异常,则g(X)=d.d(1)仃,若认为d(n)异常,则g(n)--d(n)-d叮,当g(i)>90(n,a)时,则判断该值d(i)为异常值,应予以剔除,否则d(i)为正常值,n,a意义同前,表2给出Crubbs准则不同样本和显著度时的临界值go(n,a)。75一一一一表2一C.r.ubbs准则f临界值90(I-’。)11a--0.05a--0.01na=0.05a--0.0131.151.16172.482.7841.461.49’182.502.8251.671.75192.532.8561.821.
6、94202.562.8871.942.102l2.582.9l82.032.22222.602.9492.1l2.32232.622.96102.182.4l242.“2.99ll2.232.48252.663.01122.282.55262.743.10.132.332.61352.8l3.18142.372.66402.873.24152.412.70502.963.34162.442.751003.173.592.1.4Dixon准则该准则采用极差比的方法,得到简化而严密的结果,从而避免了前面几种准则需先求出样本标准差盯的麻烦。
7、仍设样本为dl,d2,d3,⋯⋯,dn,其顺序统计量为d(i),则d(1)为最小值,d(n)为最大值,当di服从正态分布时,Dixon得出最大值d(n)的统计量分布为:r10=d(n)-d(n-I)d(n)-d(1)1"il=妇(n)-d(n-!)d(n)-d(2)r21=d(n)-d(n一2)d(n).d(2)1"22=d(n)-d(n一2)d(n)-d(3)对于最小值d(1),其统计量分布为:rlo=d(1)-d(2)d(1)-d(n)I'll=d(1)_d(2)d(1)-d(n一1)r2l=d(1).d(3)d(1)-d(n-I
8、)r22=d(1)-d(3)d(1)_d(11-2)当显著度a为o.05或o.ol时,其临界值为r0帆a)o如果某样本的统计量rij>J摒值r0缸。)时,则d(。)或d(i)异常值,否则为正常值,i,J可根据样本的大小进
此文档下载收益归作者所有