资源描述:
《多元统计分析课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第3章回归分析19世纪英国遗传学家高尔登在血缘关系研究中发现:从总体看,子女身高有向其父母平均身高靠近的趋势,他把这种趋势称为“回归”。通过大量观察数据,得到了父亲身高与子女身高(记为)的估计值之间的数学表达式为(单位)。从此以后,人们便将“回归”一词作为统计研究事物相关关系的专用术语。回归分析是一种研究变量之间相关关系的统计分析方法,也就是定量地建立随机变量之间关系的函数表达式。在实际问题中,变量之间有两种关系:一种是确定性关系(即函数关系),另一种是非确定性关系。由于受随机因素影响,变量之间无法得到精确的数学表达式,这种关系称为相关关系,也就是
2、随机变量与随机变量之间的关系。例如学生高考的数学成绩与物理成绩之间的关系,儿童身高与体重之间的关系,人的年龄与血压之间的关系等都是相关关系。回归分析的主要任务就是要在大量试验得到观察数据的基础上,找出相关变量之间的内在联系和规律。变量之间相关关系最简单的一种是线性相关关系。如果仅研究一个变量与另一个变量的线性相关关系,则称之为一元线性回归分析,而一元线性回归分析则是用回归直线方程来近似表示变量与之间的关系。3.1一元线性回归3.1.1基本概念一元线性回归可用来分析自变量x取值与因变量Y取值的内在联系,不过这里的自变量x是确定性的变量,因变量Y是随机
3、性的变量,它们的内在联系用所谓的一元线性回归方程来表示,与微积分课程中的一元线性函数有所不同。一般而言,在变量x取值以后,若Y所取的值服从N(α+βx,σ)分布,当α、β及σ22未知时,根据样本(x,Y),(x,Y),…,(x,Y)的观测值(x,y),(x,y),…,(x,y)对1122nn1122nn未知参数α、β及σ所作的估计与检验称为一元线性回归分析,而α称为截距,β称为回归系数,E(Y)=α+βx称为回归方程。2由回归方程可以推出=α+β+iYixiε,即=α+β+,=α+β+1Y1x1ε2Y2x2ε,…,=α+β+nYnxnε,式中的ε,
4、ε,…,ε相互独立且都服从N(0,σ)分布。12n2怎样才能获得正确地与实验数据配合的最佳曲线呢?常用的方法是最小二乘拟合法。最小二乘法的基本原理 设在实验中获得了自变量与因变量的若干组对应数据ixiy()iiyx,,在使偏差平方和取最小值时,找出一个已知类型的函数()[Σ−2iixfy()xfy=(即确定关系式中的参数)。这种求解的方法称为最小二乘法。()xf若记()()2221ΣΣΣ−=−=iiixxxnxxxI()()2221ΣΣΣ−=−=iiiyyynyyyI()()()ΣΣΣΣ•−=−−=iiiiiixyyxnyxyyxxI21代入方程组
5、可以解出xbya−=xxxyIIb=由误差理论可以证明,最小二乘一元线性拟合的标准差为()yiiiaSxxnxS•−=ΣΣΣ222()yiibSxxnnS•−=ΣΣ22()22−−−=ΣnbxaySiiy为了判断测量点与拟合直线符合的程度,需要计算相关系数yyxxxyIIIr•=一般地,1≤r。如果1→r,说明测量点紧密地接近拟合直线;如果0→r,说明测量点离拟合直线较分散,应考虑用非线性拟合。从上面的讨论可知,回归直线一定要通过点()yx,,这个点叫做该组测量数据的重心。注意,此结论对于我们用图解法处理数据是很有帮助的。一般来讲,使用最小二乘法拟
6、合时,要计算上述六个参数:。rSSSbayba,,,,,3.1.2线性回归方程的显著性检验所谓假设检验,就是事先对总体参数或总体分布形式作出一个假设,然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定是否接受或否定原假设。假设检验采用的逻辑推理方法是反证法。先假定原假设正确,然后根据样本信息,观察由此假设而导致的结果是否合理,从而判断是否接受原假设。判断结果合理与否,是基于“小概率事件不易发生”这一原理的(1)F检验法:由于2SSEσ服从χ(n-2)分布;当H20:β=0为真时,2SSRσ服从χ(1)分布且SSR与
7、SSE相互独立;因此,当H为真时,F=20SSRSSE(n2)−服从F(1,n-2)分布,当F≥F1-α(1,n-2)时应该放弃原假设H。0⑵t检验法:根据b服从N(β,xx2lσ)分布,2SSEσ服从χ(n-2)分布,因此,当H20:β=0为真时t=b)2n(SSElxx−服从t(n-2)分布,当
8、t
9、≥t1-0.5α(n-2)时应该放弃原假设H。0(2)r检验法:根据x与Y的观测值的相关系数r=xyxxyylll,r=22xyxxyylll可以推出r=2SSRSST,当H0:β=0为真时,F=)2n/()r(1r22-−服从F(1,n-2)分布
10、,当F≥F1-α(1,n-2)或
11、r
12、≥rα(n-2)时应该放弃原假设H,式中的rα(n-2)=0)2n()2n,1(F)