资源描述:
《回归与相关分析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、1.回归与相关分析1.1回归分析简介现实世界中变量之I'可的关系可以分成两类,一类是确定关系,这种关系可以使用函数来进行分析和描述;另一类关系是不确定关系,这种关系称为相关关系,如气温、降雨量与农作物的产量之间的关系,人的年龄与血压之间的关系等,都是不能用函数关系来表达的,但是它们之间确实存在着某种关系。回归分析是研究相关关系的一种数学工具。它能帮助我们从一个或儿个变量去估计另一个难以确定的量。在以前的讨论中我们遇到的都只有关于一个对象的一组样本,现在假如我们的观察对象是两个,这样就每次就可以得到一对样本观察值,这些值也都是随机变量。我们
2、用X,Y表示它们。例如,考虑人的身高与体重。如果我们用X表示身高,Y表示体重。我们获得的第i对观察值为,如果接受测量的人有n个人,则样本的容虽为n。其屮n对数据可以表示如下:XY兀,儿我们现在的目的就是要建立Y与X的关系。其中一种常用的方法就是回归分析方法。回归分析就是采用统计的方法估计随机变量Y与X之间的关系式。相关分析也是一种分析随机变量Y与XZ间的关系的一种方法。而它着重考虑的是Y与X之间的相关程度(相关系数)与相关方式(方向、系数),其分析结果就是两个变量之间的相关系数。相关分析与冋归分析是紧密结合的,常常一起使用。一般说来,采用
3、相关分析确定变量之间是否确实有相关关系存在,如果存在,则用回归分析求出变量之间的定量关系表达式。在回归分析中,通常对我们感兴趣的变量,或需要估计的量称为因变量,记为y。对于随机变量y来说,如果我们要估计它,最重要的就是它的均值。显然,由于y是一个随机变量。因此y=E(y)+£(1)其中,E(y)是y的数学期望,£是随机误差,它是不可预测的。即随机变量y的等于它的均值加上一个正或负的随机误差。由于随机误差£的均值为0,因此对随机变量y的最好估计为E(y)。但是我们并不知道总体的均值E(y),因此只能通过样本的均值來进行估计,因此有,上式中9
4、表示y的估计值,歹表示y的样本均值。由于因变量y与一个或几个自变量之I'可存在相关关系,因此,只要给出一组y与x的样本值,就可以确定(2)式,从而在给定x的情况下确定y的估计量回归分析与相关分析具有非常广泛的应用,尤其是在管理活动屮。1.2一元线性回归分析1.2.1.一元回归分析在进行回归分析时,我们必需知道或假定在两个随机Z间存在着一定的关系。这种关系可以用Y的函数的形式表示出来,即Y是所谓的因变量,它仅仅依赖于自变量X,它们之间的关系可以用方程式表示。在最简单的情况下,Y与X之间的关系是线性关系。用线性函数a+bX來估计Y的数学期望的
5、问题称为一元线性回归问题。即,上述估计问题相当于对x的每一个值,假设£(),)二加,而且,y〜N(a+hx,(72),其中a,b,。彳都是未知参数,并且不依赖于x。对y作这样的正态假设,相当于设,y=a+bx+£(3)其屮£〜N(0,ct2),为随机误差,a,b,。2都是未知参数。这种线性关系的确定常常可以通过两类方法,一类是根据实际问题所对应的理论分析,如各种经济理论常常会揭示一些基本的数量关系;另一种直观的方法是通过Y与X的散点图來初步确认。对于公式(3)中的系数a.b,需要Ftl观察来进行估计.如果由样本得到了a,b的估计值'ha.
6、b,则对于给定的x,a+bx的估计为a--bx.记作夕,它也就是我们对y的估计。方程Ay=a--hx(4)称为y对x的线性回归方程,或回归方程,其图形称为回归直线。例1:有一种溶剂在不同的温度下其在一定量的水中的溶解度不同,现测得这种溶剂在温度x下,溶解于水中的数量y如下表所示:Xi0410152129365168yi66.771.076.380.685.792.999.4113.6125.1这里x是白变量,y是随机变量,我们要求y对x的冋归。其散点图如下:12011010090807060-100102030405060701.2.
7、2.确定回归系数在样本的容量为n的情况下,我们我们可以得到n对观察值为(石,兀)。现在我们要利用这n对观察值来估计参数a,b。显然,y的估计值为,y=a--bx在上式中a,b为待估计的参数。估计这两个参数的方法有极大似然法和最小二乘法。其中最小二乘法是求经验公式时最常用的一种方法,也最简单。现在就采用这种方法。当我们做出这一对变量观察值的散点图后,我们可以看出,我们所要求的冋归直线,实际上是这样的一条直线,即,使所求的直线能够最好的拟合已有的所有点,或者说要使图上所有的点到这条直线的距离最近。因此所要求的直线实际上就是使所有的点与这条直
8、线间的误差最小的直线。我们用X•表示y的样本观察值,必表示根据回归方程所得到的y的估计值,则估计值与实际观察值之间的误差为,◎=开一刃=yi-a-bxi(5)其总的误差,可以表示为误差的平方和