线性回归基于数据删除模型的诊断方法

线性回归基于数据删除模型的诊断方法

ID:43612013

大小:106.15 KB

页数:9页

时间:2019-10-11

线性回归基于数据删除模型的诊断方法_第1页
线性回归基于数据删除模型的诊断方法_第2页
线性回归基于数据删除模型的诊断方法_第3页
线性回归基于数据删除模型的诊断方法_第4页
线性回归基于数据删除模型的诊断方法_第5页
资源描述:

《线性回归基于数据删除模型的诊断方法》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、线性回归基于数据删除模型的诊断方法数据删除模型是统计诊断的最基本的模型,比较删除模型与未删除模型相应统计量之间的差异(主要是相应估计量之间的差异)是统计诊断最基本的方法。这不仅适用于线性回归模型,而冃也适用于其他更复杂的统计模型。给定一组数据集Z={©,…,s},我们要研究各个数据点在计诊断中的作用,具体来说,耍检测第j个点石是否为异常点或强影响点。如果数据点都是正常的,则它们在统计诊断中的作用差别不大,去掉一两个数据点对统计诊断不会有太大的影响(如果数据点的个数不是很少)但是,如果第i个数据点召为异常点或强影响点,则它可能

2、对统计诊断起到比其他数据点更大的作用,去掉这个点以后的统计诊断与原来的情形可能会有很大的不同。为了研究数据点乙•对$的影响,今考虑删除知前后估计量之间的变化,设删除2,•以后的数据集,模型以及的估计分别记为Z(i)、M(j)(&)和4(0,如果召是一个正常的数据点,则加)与$应该相差不大;如果%)与$相差很大,则说明",的存在与否严重地影响了&参数估计的值,即数据点召对于&的估计4有很大的影响,因而这个数据点可能为异常点或强影响点。基于数据删除模型的统计诊断方法的基本思想,其具体实施步骤可归纳如下:(1)指出如何得到4与%)

3、,特别是如何得到加)。通常可以给出他们之间的关系式或近似关系式(2)定义某种合适的“广义距离”D「用来度量%)与》之间的“差线性回归基于数据删除模型的诊断方法数据删除模型是统计诊断的最基本的模型,比较删除模型与未删除模型相应统计量之间的差异(主要是相应估计量之间的差异)是统计诊断最基本的方法。这不仅适用于线性回归模型,而冃也适用于其他更复杂的统计模型。给定一组数据集Z={©,…,s},我们要研究各个数据点在计诊断中的作用,具体来说,耍检测第j个点石是否为异常点或强影响点。如果数据点都是正常的,则它们在统计诊断中的作用差别不大

4、,去掉一两个数据点对统计诊断不会有太大的影响(如果数据点的个数不是很少)但是,如果第i个数据点召为异常点或强影响点,则它可能对统计诊断起到比其他数据点更大的作用,去掉这个点以后的统计诊断与原来的情形可能会有很大的不同。为了研究数据点乙•对$的影响,今考虑删除知前后估计量之间的变化,设删除2,•以后的数据集,模型以及的估计分别记为Z(i)、M(j)(&)和4(0,如果召是一个正常的数据点,则加)与$应该相差不大;如果%)与$相差很大,则说明",的存在与否严重地影响了&参数估计的值,即数据点召对于&的估计4有很大的影响,因而这个

5、数据点可能为异常点或强影响点。基于数据删除模型的统计诊断方法的基本思想,其具体实施步骤可归纳如下:(1)指出如何得到4与%),特别是如何得到加)。通常可以给出他们之间的关系式或近似关系式(2)定义某种合适的“广义距离”D「用来度量%)与》之间的“差异”;卩通常称为诊断统计量。显然,用来度量舫与$之间“差异“的诊断统计量不是唯一的,可以有多种形式(3)对每个数据点s…,z”分別计算广义距离几…,2。可通过列表或画图找出一个或几个特别大的9(也可能没有特别大的),则相应的数据点可能为异常点或强影响点(至于这些数据点的具体位置,则

6、要取决于给定数据集的实际背景情况)1.数据删除模型及其参数估计对于线性回归模型,为了评价第i个数据点a,升)在回归分析中的作用与影响,可通过比较第j个数据点3」)删除前后统计推断结果的变化,来检测这个点是否为异常点或强影响点。删除第,个点以后的模型称为数据删除模型(简记CDM),其分量形式和矩阵形式可分别表示为儿=兀0+巧,J=Y(i)=X(/J0+E),其111y(z),x(z),£(,)表不y,x,£删除第r个分量以后的向量或矩阵。为了比较第i个数据点删除前后佔计量的变化,今记以上模型中,参数0和/的最小二乘估计为B⑴和

7、庁P)。下面只给出最小二乘估计的结论,证明过程可参见韦博成老师等编写的《统计诊断》。卩①=0-(X'X尸兀e1一Pa八2RSS(i)=RSS•-Pu定理1・1对于数据删除模型,其最小二乘估计可表示为(1)(2)(3)Pi』其中&=0d=这个定理给岀了删除第/个数据点前后估计量之间的关系式,这些公式是评价第i个数据点是否为异常点或强影响的基础。如前所述,如果第j个数据点是一个正常的数据点,则P⑴与P应该相差不大;如果加)与P相差很大,则说明第i个数据点的存在与否严重地影响了0参数估计的值,因而这个数据点可能为异常点或强影响点。

8、由(1)式可知,杠杆值几越大,则删除第i个数据点前后的估计量次,)与庐之间的差异越大;若门严1,则估计量pQ)与2之间的差异将非常大,因而第j个数据点处的拟合可能有问题,这个数据点可能为异常点或强影响点。在定理1・1屮,我们并未对随机误差£的分布加以限制,只要求£(0,<72/),如果£N

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。