资源描述:
《统计数据中异常值的检验方法_张德然》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、2003年第5期统计研究No.52003StatisticalResearch53统计数据中异常值的检验方法张德然ABSTRACTInstatistics,thekeyproblemaffectingthequalityofdataistheerror,whichisthemajorreasoncausingoutliers.Therefore,it'scriticaltopickoutthem.Asaresult,apracticaltestingmethodwhichcanbeappliedtokindsofcas
2、esisdeveloped,andtheresultsofconcreteexamplesandlimitationshowitsconvenienceandhighcredibility.关键词:统计数据;异常值;检验机对数据间的逻辑关系进行检查和纠正,然而面对混杂一、异常值的两种理解在大量原始数据中的异常数据却难以较准确地判断。尤统计数据质量问题一直困扰着我国统计界,也为社其是广义定义上的异常值,到目前为止国内外尚无有效会各界所关注。所以近年来对其理论上的研究探讨始络的方法将其一一检验出来。对于狭义定义下的异常值,
3、保持热点。但研究的重点主要是在健全统计法律制度和由于它们对统计分析的结果反应灵敏及数学上的处理相完善工作程序等方面。毫无疑问,这些确实是提高统计对来说较简单。近年来,国内外不少学者从不同角度对数据质量的重要方面。但统计数据质量问题本质上是误其给出了一些方法。特别是在电子产品的可靠性研究、差问题。即所提供的统计数据与客观的社会经济现象实机械制造业的可靠性疲劳试验、橡胶工业的试验以及其际的数量特征之间的差距问题。如果数据中混进了异常它行业对产品质量等的统计分析中,其相关的数据均可值,就会使相应统计分析误差增大,小则出差错,
4、大则发视之为“寿命数据”。对本数据的描述,指数分布,伽玛分生事故,甚至导致宏观决策上的失误。因此,在利用统计布,威布尔分布以及对数正态分布占据了十分重要的角数据进行统计分析之前,有必要对其进行异常数据的检色,因为它们在相当广泛的范围内具有实用性。正是基验。于此,国内外已有的文献基本上都是针对上述分布研究何谓异常数据?从有关文献中我们可以发现国内外了异常数据的检验问题。同时国家标准局也已颁布了正的一些学者们认识不尽相同,归纳起来笔者把其界定为态分布、极值分布以及指数分布异常数据的判断和处理两种,从它们的内涵关系,称其分别
5、为广义及狭义定义。的三个国家标准,供实际工作者使用。定义1(广义定义):在所获统计数据中相对误差较大二、异常值检验的方法的观察数据称之为异常值(outlier)。或称奇异值。定义2(狭义定义):一批数据中有部分数据与其余数由定义2,异常值就是离群值,将所获统计数据按从据相比明显不一致的称为异常值。或称离群值。小到大的次序进行排列后,异常值必处在两侧的位置上,显然,由定义1,社会经济统计中一切失实数据统称针对这种情况,任意获得一组统计数据,它不外乎是下述为异常值。由于人为或随机因素的影响,失实的数据随三种情形之一;时都有
6、可能出现,因而统计数据中的任一个都有可能成(1)仅有异常小值(但不一定唯一);为异常值。而定义2界定的异常值是指离群值,如果把统(2)仅有异常大值(但不一定唯一);计数据按由小到大排列,若有异常值,它必位于其数据的(3)既有异常小值又有异常大值;两端,左端称为异常小值,右端的称为异常大值。由此可对(1)及(2)中二种情形研究的文献较多,但往往是假知定义1涵概了定义2,这就是笔者分别称其为广义与狭定所含异常值是唯一的。应该说,在这方面的理论现在义的原因。已比较成熟。但遗憾的是,由于条件要求的奇刻,使得其在对统计数据的质量
7、进行评估时,虽然能运用计算应用范围极窄。譬如说,检验自动包装机工作是否正常,54统计研究刚开始工作,由于设备刚刚启动可能会出现一些异常值,大值。为此,引入下述定理:经过一段工作后,仍可能由于部分部件发生故障而导致定理1设X(1),X(2),…,X(n)为来自单参数指数分出异常值。所以既有异常小值又有异常大值的情形在所-1-x布f(x;θ)=θeθ,x>0的容量为n的次序统计量,则搜集的统计数据中是广泛存在的。对于3的情形还象解对任意的1≤k8、已知分布的统计量来进行检验是无法k∑(n-i+1)(X(i)-X(i-1))i=k+1F=k~F(2(r-凑效的。加之数据的屏蔽性,很难避免Masking效应(异(r-k)∑(n-i+1)(X(i)-X(i-1))i=1判正)和Swamping效应(正判异)。正基于此,近段仍有人k),2k).(约定X(0)=0)在从理论上积极研究