欢迎来到天天文库
浏览记录
ID:58682024
大小:2.79 MB
页数:120页
时间:2020-10-05
《第四讲回归分析回归诊断说课讲解.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、回归模型的诊断通过简单回归和多元回归模型可以有了计算结果。这些结果能做推断,需要建立在一些概述性统计量的基础之上,这些统计量由数据来计算。而只有当标准的回归假定满足时,所做的推断才有可能是合理的,有意义的。而对假定的核定,可以用图形的方法,也可以用严格的数值去检查。数据也需要考虑还有模型的设定标准的回归假定:1,关于模型设定的假定2,关于误差的假定3,关于预测变量的假定非随机的其取值是误差取得的,但几乎不可能。测量误差将影响到误差方差,相关系数,复相关系数及回归系数的估计,其影响程度的大小取决于多个因素。是线性无关的4,关于观测的假定所有观测是同样可靠性数据的诊断异常值强影
2、响点假定是否满足模型的诊断6线性回归模型中的异常点分析异常点的识别与处理,是统计诊断中很重要的一项内容。异常点的出现会影响分析结果的可信度。异常点的存在往往蕴涵着重要的信息。在有些情况下,异常点的出现是因为有新事物出现或者新情况发生,比如经济模型中某种经济政策的出台等,都能表现出异常,这通常是我们的研究兴趣所在。在另外一些情况下,异常点的出现是由于人为差错或者仪器的故障所引起的。在我们需要根据样本对模型进行参数估计或者根据模型对将来进行预测与控制的时候,异常点的出现会对我们的工作产生很强的影响,这样的结果是令人怀疑的。因此,异常点的研究受到了广大研究者的重视,自Berno
3、ulli首次提出了异常点的概念,接下来对异常点的概念、类型以及处理问题的讨论一直没有停止过。异常点的成因与处理为什么会出现异常点?对这个问题的回答大致可以归结为以下三种情况:整体模型变化、局部模型变化和自然变异。在前两种情况下,异常点出现的多而且连续,往往蕴涵着机制的变化、新事物的出现或者新局面的形成,大量而且连续的异常点可以用新的模型来拟合。对于整个数据集,实质上已经成为一个混合模型。而第三种成因更为常见,偶尔的人为差错或者仪器的故障都可以引起异常。对于由不同的原因引起的异常点,它们的处理方法是不同的。在进行统计诊断时,判断异常点的成因是很重要的,是对异常点进行正确处理的
4、先决条件。通常对异常值的处理方法有两种。一种是把异常点作为工作重点,目标就是发现异常点并确定是否要作进一步的研究,这样的异常点往往含有很重要的信息。这时不仅要判断出异常点的存在与否,还要确定异常点出现的位置以及影响大小。这是统计诊断中一个重要内容,围绕此类问题出现了大量的统计量检验方法及影响分析研究。对于由第三种成因引起的异常点,发现之后可以进行删除,以免影响参数估计等以后的工作效果。另外一种方法就是对于异常点采取容忍的态度,把整个数据集作为研究的基础,对于一定比例的坏数据或者远离数据中心的数据采取一定的容忍或适应政策回归系数一般采用“最小二乘估计”(leastsquare
5、sestimator,LSestimator)求解,但是在应用中容易忽视的问题是LS估计只有在数据满足相应条件的情况下才会具有统计描述和推断的优良性质,如要求误差服从正态分布、总体方差相同且相互独立等。当实际数据没有近似满足这些假定时,就会出现一些异常点(outliers)、杠杆点(leveragepoint)及影响点(influentialobservations),使分析结果变得不可靠,不能发现数据中的真实结构,从专业上难以解释结果,甚至得到完全错误的结论。尤其是随着统计软件的日渐普及,我们倾向于简单地将数据交给软件来分析,而不注意具体方法的应用条件,尽管采用了SAS、
6、SPSS这些国际标准软件,但是输出结果有时却与专业解释相悖。异常点在统计诊断中的地位异常点(outlier)是统计诊断中很重要的一个概念。统计诊断(StatisticalDiagnostics)就是对从实际问题中收集起来的数据、提炼出来的模型以及由此出发所作的推断方法的合理性进行深入而细致的分析,并通过一些诊断统计量来检查数据、模型及推断方法中可能存在的毛病,进而提出治疗方案,进行模型或者推断方法的改进。统计诊断主要包括异常点识别、残差分析、影响分析和数据变换等内容,异常点的识别是处理统计诊断的重要内容之一,它进行的好坏通常影响到整个过程的诊断。异常值有时一个,有时多个在回
7、归模型中,异常点是指对既定模型偏离很大的数据点。但究竟偏离达到何促程度才算是异常,这就必须对模型误差项的分布有一定的假设(通常假定为正态分布)。目前对异常点有以下两种较为流行的看法:异常点把异常点看成是那些与数据集的主体明显不协调,使得研究者大感惊讶的数据点。这时,异常点可解释为所假定的分布中的极端点,即落在分布的单侧或双侧分位点以外的点,而通常取很小的值(如:0.005),致使观察者对数据中出现如此极端的点感到意外。把异常点视为杂质点。它与数据集的主体不是来自同一分布,是在绝大多数来自某一共同分布的数据点中掺入的
此文档下载收益归作者所有