资源描述:
《回归分析的基本概念.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、回归分析的基本概念 现实生活中的许多现象之间存在着相互依赖、相互制约的关系,这些关系在量上主要有两种类型:1.确定性关系,即我们所熟悉的变量之间的函数关系,如圆的半径R与圆的面积S之间就存在确定的函数关系:;2.非确定性关系,即变量之间虽然有密切的关系,但这种关系却无法用确定的函数关系表达,如人的年龄与血压之间有密切的关系,但却找不到一个函数能准确地表示它们之间的关系,变量之间的这种非确定性关系,称为相关关系.值得注意的是,即使是具有确定性关系的变量,由于测量误差的影响,其表现形式也具有某种程度的不确定性.具有相关关系的变量间虽然不具有确定的函数关系,但是通过大量的观测数据,可
2、以发现它们之间存在一定的统计规律,数理统计中研究这些统计规律或者说研究变量之间相关关系的方法就是所谓的回归分析.它能帮助我们有效地从一个可以控制或可以精确观察的变量取得的值去估计另一随机变量所取的值.如用年龄估计血压.设是可以精确测量或控制的非随机变量,是随机变量,的变化将使发生相应的变化,但它们之间的变化关系是不确定的,若对于的任一可能值x,相应服从一定的概率分布,则称随机变量与变量存在相关关系.进行n次独立试验,得试验数据……其中及分别是变量及随机变量在第i次试验中的观测值,常把点(,)画在直角坐标平面上,得散点图(图1).显然,散点图不能很好地表示与之间的相关关系,问题是如何根
3、据这些观测值,找出能表达与之间相关关系的最佳形式. 由于的随机性,对于的每一确定值x,有它的分布,从而它的数学期望(若存在的话)也随取确定值而确定,而数学期望能反映随机变量所取数值的集中位置,因此,取=x时的数学期望作为=x时的估计值比较合理,即.显然,是x的函数,记为,称为关于的回归函数,称为关于的回归方程.回归方程反映出的数学期望随的变化而变化的规律,近似地描述了与之间的相关关系.然而,要完全确定回归函数却很困难,回归分析的基本内容是估计,散点图可以帮助我们粗略地了解用什么形式的函数估计随机变量的数学期望要好些,所研究问题的物理背景也可帮助我们确定函数的类型.在确定了函数的
4、类型后,可设.其中为未知参数,余下的问题就是利用试验数据,依照一定的准则选择参数的估计值,使方程.在一定的意义下最佳地表现与之间的相关关系.而所谓的准则就是将要讨论的最小二乘法.最小二乘法设随机变量关于变量的回归方程为.用最小二乘法估计参数,就是要选择参数,使的观测值与相应函数值的离差平方和达到最小.下面讨论最小二乘法的概率意义.设当变量取任意实数x时,随机变量服从正态分布,即的概率密度.其中数学期望,而方差是不依赖于x的常数,设在n次独立试验中得到观测值(,),其中服从正态分布,则用极大似然法估计参数时的似然函数为 为使似然函数取得最大值,应使上式指数中的平方和 取最
5、小值,即为了使观测值(,)出现的可能性最大,应选择参数,使的观测值与相应函数值的离差平方和达到最小.分别求对的偏导数,并令它们等于零,得方程组 解上面的方程组,求出参数的估计值,即可得到回归方程.然而,一般来说,解上面的方程组是很困难的,仅当函数是参数的线性函数时,才比较容易求出参数的估计值.这是下节将要讨论的线性回归方程问题.线性回归方程变量的相关关系中最为简单的是线性相关关系,设随机变量与变量之间存在线性相关关系,则由试验数据得到的点(,)将散布在某一直线周围,因此,可以认为关于的回归函数的类型为线性函数,即,下面用最小二乘法估计参数、b,设服从正态分布,分别求对、b的偏导数,
6、并令它们等于零,得方程组 解得 其中 , 且为观测值的样本方差.线性方程称为关于的线性回归方程,称为回归系数,对应的直线称为回归直线.顺便指出,将来还需用到,其中为观测值的样本方差.值得注意的是,关于的计算可以利用具有统计计算功能的电子计算器进行,而当电子计算器具有线性回归计算的功能时,把所有试验数据(,)逐对存入计算器中,则可直接算出及的值.例1某商场一年内每月的销售收入(万元)与销售费用(万元)统计如下表187.125.4239.432.4242.027.8179.522.8217.824.4251.934.2157.0
7、20.6227.129.3230.029.2197.021.8233.427.9271.830.0求销售费用关于销售收入的线性回归方程.解:计算得,,, 所以 所求线性回归方程为散点图及回归直线如图2所示.相关系数的显著性检验现在讨论线性相关的显著性检验中最简便、最常用的一种方法,即相关系数的显著性检验法.我们早在前面的学习中知道,变量与的相关系数是表示与之间线性相关关系的一个数字特征,因此,要检验随机变量与变量之间的线性相关关系是否显著,自