回归分析中异常值的诊断与处理【资料】

回归分析中异常值的诊断与处理【资料】

ID:47895122

大小:851.32 KB

页数:33页

时间:2019-10-20

回归分析中异常值的诊断与处理【资料】_第1页
回归分析中异常值的诊断与处理【资料】_第2页
回归分析中异常值的诊断与处理【资料】_第3页
回归分析中异常值的诊断与处理【资料】_第4页
回归分析中异常值的诊断与处理【资料】_第5页
资源描述:

《回归分析中异常值的诊断与处理【资料】》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、回归分析中异常值的诊断与处理1引言对调查得到的大量原始数据进行加工处理,提取其中有用的信息,即统计整理,是进一步进行统计分析的前提.但是通常的统计整理方法往往都对样本数据冇一个前提假设,即样木数据是来自同一个总体,而这个假设有吋却不能成立.原因一是由客观因素造成的,如总体条件的突然变化或人们未知的某个因素的突然出现等等;二是由主观方面的因素造成的,即人为的差错如调查人员读错或抄错数据,不小心把另一些不同条件下的样本数据混朵进來.当样本中的个别数据明显的偏离样本中其余数据时,这些数据可能是来口不同的总体,我们称这样的数据为异常数据.若对混冇异常

2、数据的样本按常规进行统计整理、分析、推断,往往会得出不符合实际的结论.木文就样木屮的异常数据提出了诊断方法和处理方法,并结合实例说明了简单冋归中上述方法的具体应用.2异常值的概念所谓异常值就是在所获统计数据中相对误差较大的观察数据,也称奇异值(Outliers).狭义地定义异常值就是一批数据中冇部分数据与其余数据相比明显不一致的数据,也称离群值.社会经济统计中一切失实数据统称为异常值.由于人为或随机因素的影响,失实的数据随时都有可能岀现,因而统计数据屮的任何一个都冇可能成为异常值,而狭义界定的异常值是指离群值,如杲把统计数据按由小到大排列,若

3、有异常值,它必位于其数据的两端,左端称为异常小值,右端的称为异常大值.残差:考虑线性冋归模型y=X0+£,E(e)=O,C"(e)=刊.1®其中"■■•,X=1X2]••••••_K_J£1分量形式为xl.p-lX2,p-■■*A■■■,e=§■■•Pt■A_定义g=).,—»=y—Xp为残差向量,其中y=Xp称为拟合值向量,p为0在模型⑴下的最小二乘估计.如果用兀…,尤表示X的刃个行向量,则称ei-y.一兀:0,i=1,•…,n,为第i次试验或观测的残并.对简单冋归,则纟=)[一兀:〃,:=1,・・・,刃,其中兀'=(1,1旺X=1x2•

4、•,y=•••••■•LaJ)Xn_兀)•于是,异常值就是在回归分析小,一组数据(兀:,片)如果它的残差g较其它组数据的残差大的多,则称此数据为异常值.异常值的出现有主客观的原因.主观上抽样调查技术有问题,疏忽大意记错,或人为的虚报,谎报数据等都可能导致异常数据,这直接影响了统计数据的质量;客观上某些样詁由于特定原因在某些变量上的确表现突出,明显超出平均水平,这也可能产生异常值.异常值的存在必将导致相应统计分析误差增大,会对分析结果(平均值与标准差)产生重要影响,会降低测量的精度.如果不预先处理它们,用通常的统计整理方法所得出的结论可靠性弟.

5、而异常值的诊断与处理是保证原始数据可靠性,平均值与标准差计算准确性的前提.3异常值的诊断方法在讨论异常值诊断问题时,通常要假设所得样本观测值在某中意义下遵从一定的分布规律.拿到一批数据,若能从英实际背景屮明确看出它服从某屮分布形式时,一般的做法是在这种分布假设卜•,导出能较好反映异常值与正常值差异的统计量,在没有异常值的原假设下作假设检验.以下给出两种检验方法.3.1F分布检验法学生化残差:考虑线性回归模型(1),记$=称9为拟合值向量,称其第j个分量);■=xp为第i个拟合值,则y=X(XX)_,Xy=//y,这里H=X(XfXlX,.

6、文献中通常称H为帽子矩阵.前而已经定义了Aei=y.一兀:0,i=兀,为第?•次试验或观测的残差.将其标准化为f,再用丘代替<7,得到所谓学生化残差S.1r=——/,<=I,…,斤,n这里心为H的第j个对角元,$2=—・n-p把正态线性冋归模型(1)改写成分量形式yf=x}/3+ei,勺〜^(0,<72),i=l,…,n,这里耳,(z=l,...,n)相互独立•如果第丿组数据(x;,yJ是一个异常点,那么它的残差就很大•它的残差Z所以很大是因为它的均值E(yJ发生了非随机性漂移〃.从而E(yJ=x;0+〃・这产生了一个新的模型fy.=xfp.

7、+e.&j仞[y.=%;./?+77+e.J〜N(0q2),记dj=[0,…,0,1,0,…,Of.将模型(3)改写成矩阵的形式y=X0+d刃+幺,£〜TV(0,cr2/),(4)模型(3)和(4)称为均值漂移线性回归模型•要判定(町・,儿)不是异常点,等价于检验假设H:7=0.引理1用)%•),X(°和钿分别表示从丫、X和纟剔除第i行所得到的向量或矩.从线性回归模型(1)剔除第i组数据后,剩余的”-1组数据的线性回归模型为y犷忑)0+钿,E(弘))=0,C"(%))=o•人.⑸将从这个模型求到的0的最小二乘估计记为几),则1一1%(XX)、

8、•证明:因为代)=(xd)x(j'XQ⑴.设A为〃X,7可逆阵,"和V均为〃xl向量.用恒等式(A-uvTA'1A-luvrA-1+-u'A~有(x(',)X(

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。