欢迎来到天天文库
浏览记录
ID:52490972
大小:212.82 KB
页数:4页
时间:2020-03-28
《海洋站数据质量控制技术探讨.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第30卷第1期2011年3月海洋技术OCEANTECHNOLOGYV01.30.No.1Mar,201l海洋站数据质量控制技术探讨史静涛,周智海(国家海洋技术中心,天津300112)摘要:介绍了几种常用的数据质量控制方法,并分析了这些方法的使用条件;初步分析了海洋站数据质量控制过程;针对海洋站数据特点,对某一海洋站某月遥时数据分别采用38检验法和格拉布斯检验法进行整体检验和分组检验,并采用曲线拟合手段表现质量控制结果。结果表明。对海洋站数据进行质量控制以后,数据质量得到了明显提高.同时也显示出对数据进行分组检验的必要性。关键词:质量控制过程;38检验法;格拉布斯检验法;曲线拟
2、合;分组检验中图分类号:P7l文献标志码:A文章编号:1003—2029(20lllOl-oll4—04随着国家对海洋环境的重视.人们也认识到海洋站数据质量提高的莺要性,数据质量需要数据质量控制才能提高。目前,数据质量控制主要是实时数据质量控制和延时数据质量控制两种。实时数据质量控制是延时数据质量控制的基础,实时数据质量控制做得好就能减轻延时数据质量控制的工作。两种数据质量控制所控制的数据有一定的差别,所以采取的数据质量控制方法也不同。然『『
3、i这两种数据质量控制过程基本上是一致的。本文首先探讨了常用的数据质量控制方法,其次针对海洋站以及其数据特点初步分析了其数据质量控制过程
4、.最后通过案例来了解具体的海洋站数据质量控制过程。1几种数据质量控制方法简介数据质量控制方法的研究是数据质量控制的重点,控制方法的好坏直接影响到数据质量。目前,数据质量控制经常用的方法有极值控制、莱菌达检验法、狄克逊检验法、格拉布斯检验法以及Cochran检验法等。1.1极值控制方法极值控制方法是根据各种海洋环境要素的物理特性、统计经验给定各个要素的极大值和极小值。极值控制是普遍采用、简单有效的方法,能够有效地检验出极端异常的数据。然而极值控制方法不能很好地检验那些差异不是很大的异常数据,这就需要更加精准的控制方法来控制。1.2弱检验法11I∞检验法又称莱因达检验法。根据误差
5、理论。一般情况下随机误差6服从正态分布。6为标准差。一般是未知的,通收稿日期:2010-05—28基金项目:国家“十一五”863计划——海洋立体实时监测信息服务技术系统资助项目(2006AA09A302)常用贝塞尔公式算得S代替6,以戈代替真值。i=专喜_并。为观测值,i=1,2,⋯,NS=(2)对某个观测数据瓤,若其残差巩满足I)i----I妒茗1>3S,i=1,2,⋯,Ⅳ,则鼍可疑,应该标记异常值。1.3狄克逊(Dixon)检验法11-31狄克逊准则有一假定条件,那就是设定观测数据总体是正态分布的,取1个样本菇。声2,⋯,Zn,将观测数据按大小顺序排列为茗j≤聋:≤并j≤
6、⋯≤茹,册检验高端值和低端值是否异常有如下4种方法:_。=百Xn--X卜l与‘=粤≥(3≤n≤7)(3)xn—X1xn—Xl1l=兽与rn,=珏(8≤n≤lo)(4)工H一工2工pl一五吃,=警工^一X2与r2,l=粤≥(1l≤n≤13)(5)Xn_l—X1、。⋯勃=酱与吃=鹈X3--XI㈣一如Ⅲ,工月一而Jp2一zI以上的rio,r'ro,rll,r'u,r21,r乞,rzz,r乞简记为ri,和rjJ。狄克逊导出了它们的概率密度函数。选定显著性水平a.求得临界值D(玛n)。第1期史静涛,等:海洋站数据质量控制技术探讨115若r#r,ri>D(a,,1)则判断茗:为异常值;若
7、归j,r≯D她m则判断膏j为异常值;否则判断没有异常值。狄克逊认为对不同的测量次数或不同的数据量,应选用不同的统计。狄克逊方法本身说明该方法适合数据量比较少的情况,对于数据量比较大的数据一般采用其他方法;而且这种方法公式比较多。判别过程相对比较繁琐。1.4格拉布斯检验法11-31(Grubbsl格拉布斯准则是根据顺序统计量的某种分布规律提出的一种判别标准。设定一个正态独立测量的样本瓤,茹2,⋯,‰,对其中的一个可疑数据恕(它与茗的残差绝对值最大),构造统计量为羔警,式中算为样本的平均值,s按公式(2)计算。格拉布斯导J出了它的理论分布。选定显著性水平口,a通常取O.05或O.
8、01,求得按下式意义的临界值G位,n)。可学吨一归(7)因此有如下的判断准则:若k广xl>,G(瑾.n)S,则数据Xi为异常值。该方法是比较实用和精确的一种数据质量控制方法,对于小数据量的数据可以通过查表来确定G缸,n),对于数据量n,>30,可以通过下面公式(8)得到。瓯=—In(丽n-3)+1.36一击(8)1.5Cochran检验法11-31设有£组数据,每组测定n次。标准差S。,岛,⋯,&都由公式(2)得到;Ca)将L个标准差按大小顺序排列,最大值记为S。;(b)hr算统ittC:c={坠(9)
此文档下载收益归作者所有