欢迎来到天天文库
浏览记录
ID:39766887
大小:199.51 KB
页数:5页
时间:2019-07-11
《回归中异常值的残差诊断探讨》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、回归中异常值的残差诊断探讨北方民族大学信息与计算科学学院马耀兰魏波摘要:本文阐述了用残差进行诊断,主要包括:异常值的普通(非标准化)残差诊断、异常值的剔除残差诊断和异常值的学生化剔除残差诊断。对异常值的处理问题还进行了进一步的探讨,提出了处理异常值的一般性的理论和方法。关键字:异常值;残差诊断作者简介:姓名:马耀兰,女,1981-,宁夏同心人,本科北方民族大学信息与计算科学学院教师。魏波,男,1979-,宁夏银川人,本科,北方民族大学信息与计算科学学院教师1引言回归分析是统计学中一个非常重要的分支,它在自然科学、管理科学和社
2、会等领域应用十分广泛。在回归分析中的一个重要的假设是,使用的模型对所有的数据是适当的。在实际应用中通常会有个别案例观测值似乎与模型不相符,但模型拟合于大多数数据。其中不适合的个别案例就是我们所说的异常值。对于异常值的来源通常有主观和客观两个原因。主观原因是由于人们在收集和记录数据的时候出现错误所造成的。这种异常值诊断出后处理很容易。客观原因是有两类机制所造成的,即重尾分布和混合分布,弄清这类异常值产生的原因很重要,因为这将直接影响后面数据的分析。例如:我们可以想象一个地质模型,其中异常值对应着石油储藏或其他有用特征的案例。它
3、与大多数案例分析不一样,这样的异常值就成了分析目的。因此,对于异常值点不应该机械被删除或自动降低权重,因为他们不一定是坏的观测。相反,如果是准确的,就可能是数据中包含信息最多的值。2异常值检验2.1残差诊断异常值的残差诊断是从直接反映拟合效果好坏的残差入手。常用的残差有:普通残差、预测残差、学生化残差、递归残差和不相关残差。在这里主要以一元线性回归模型为例,用普通残差、预测残差、学生化残差来进行异常值的检验。一元线性回归模型为:(2.1.1)对于个观测点为模型的最小二乘估计为:(2.1.2)2.1.1异常值的普通(非标准化)
4、残差诊断普通残差就是最小二乘残差,就是通过最小二乘回归后得到的残差,记为。第个样本观测值的普通残差为:在古典线性回归模型的假设下,构造统计量:(2.1.1.1)其中,为的最小二估计量。在的置信水平下,查分布表,凡满足的观测值就可以认为是异常值。在大样本的情况下,分布与正态分布十分接近,因此,也可以按照正态分布的原则判断异常值。由普通残差的定义有:。其中,,显然有:从上面可以看出普通残差存在异方差问题,并且异方差大小取决于自变量的数值,条件很难满足。因此,用普通残差诊断异常值是不合适的,它只能作为一个参考。2.1.2异常值的删
5、除残差诊断在个样本观测值的情况下,每次有个样本观测值进行回归分析,并用所得到的估计结果来预测省略的哪个样本值,这样就可以得到删除残差:(2.1.2.1)其中为个样本观测值中除去第样本观测值后得到的的拟合值。在古典线形回归模型假设下,构造统计量:(2.1.2.2)其中。在的置信水平下,查分布表,凡是满足的观测值就可以认为是异常值。在大样本情况下,也可以按照正态分布的原则判断异常值。与普通残差相比,尽管删除残差也存在异方差问题:,但在诊断异常值时普通残差要包括异常值在内的所有样本观测值来拟合获得,所以很难发现异常值。而删除残差用
6、其他样本观测值来拟合获得,因而更容易发现异常值。2.1.3异常值的学生化删除残差诊断学生化删除残差是删除残差除以其估计标准差,记为,设去掉第个观测值的回归模型中的的无偏估计为,则第个观测值的学生化删除残差为:(2.1.3.1)此时,,在置信水平下查分布表得到,凡是满足的观测值就可以认为是异常值。当然在大样本情况下也可以用正态分布的原则判断异常值。与删除残差相比,学生化删除残差不存在异方差问题。因此通过学生化删除残差来诊断异常值更科学,更准确。算例智力测试数据:下表是教育学家测试的21个儿童的记录,其中X是儿童的年龄(与月为单
7、位),Y表示某种智力指标,通过这些数据要建立智力随年龄变化的关系。先考虑其线性模型。表2.1组数12345678910x152610915201811820y95718391102879310010494组数1112131415161718192021x79101111101242171110y1139683841021001055712186100用SPSS统计软件求的其线性回归方程为:y=109.874-1.127x用SPSS统计软件得到的残差图:图2.1图2.2图2.3图2.4上面的图分别是因变量与标准化残差(图2.1
8、)、剔除残差(图2.2)、学生化残差(图2.3)、学生化剔除残差(图2.4)的散点图。从上面4幅散点图可以看到,有一点残差远离0点,推断它可能是异常值。同时用SPSS统计软件可以求出它的各种残差、COOK距离和高杆值见下表:组数RES_1DRE_1ZRE_1SRE_1SDR_1COO_1L
此文档下载收益归作者所有