回归与相关分析

回归与相关分析

ID:43392480

大小:488.85 KB

页数:22页

时间:2019-09-30

上传者:U-7604
回归与相关分析_第1页
回归与相关分析_第2页
回归与相关分析_第3页
回归与相关分析_第4页
回归与相关分析_第5页
资源描述:

《回归与相关分析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1.回归与相关分析1.1回归分析简介现实世界中变量之I'可的关系可以分成两类,一类是确定关系,这种关系可以使用函数来进行分析和描述;另一类关系是不确定关系,这种关系称为相关关系,如气温、降雨量与农作物的产量之间的关系,人的年龄与血压之间的关系等,都是不能用函数关系来表达的,但是它们之间确实存在着某种关系。回归分析是研究相关关系的一种数学工具。它能帮助我们从一个或儿个变量去估计另一个难以确定的量。在以前的讨论中我们遇到的都只有关于一个对象的一组样本,现在假如我们的观察对象是两个,这样就每次就可以得到一对样本观察值,这些值也都是随机变量。我们用X,Y表示它们。例如,考虑人的身高与体重。如果我们用X表示身高,Y表示体重。我们获得的第i对观察值为,如果接受测量的人有n个人,则样本的容虽为n。其屮n对数据可以表示如下:XY兀,儿我们现在的目的就是要建立Y与X的关系。其中一种常用的方法就是回归分析方法。回归分析就是采用统计的方法估计随机变量Y与X之间的关系式。相关分析也是一种分析随机变量Y与XZ间的关系的一种方法。而它着重考虑的是Y与X之间的相关程度(相关系数)与相关方式(方向、系数),其分析结果就是两个变量之间的相关系数。相关分析与冋归分析是紧密结合的,常常一起使用。一般说来,采用相关分析确定变量之间是否确实有相关关系存在,如果存在,则用回归分析求出变量之间的定量关系表达式。在回归分析中,通常对我们感兴趣的变量,或需要估计的量称为因变量,记为y。对于随机变量y来说,如果我们要估计它,最重要的就是它的均值。显然,由于y是一个随机变量。因此y=E(y)+£(1)其中,E(y)是y的数学期望,£是随机误差,它是不可预测的。即随机变量y的等于它的均值加上一个正或负的随机误差。由于随机误差£的均值为0,因此对随机变量y的最好估计为E(y)。但是我们并不知道总体的均值E(y),因此只能通过样本的均值來进行估计,因此有, 上式中9表示y的估计值,歹表示y的样本均值。由于因变量y与一个或几个自变量之I'可存在相关关系,因此,只要给出一组y与x的样本值,就可以确定(2)式,从而在给定x的情况下确定y的估计量回归分析与相关分析具有非常广泛的应用,尤其是在管理活动屮。1.2一元线性回归分析1.2.1.一元回归分析在进行回归分析时,我们必需知道或假定在两个随机Z间存在着一定的关系。这种关系可以用Y的函数的形式表示出来,即Y是所谓的因变量,它仅仅依赖于自变量X,它们之间的关系可以用方程式表示。在最简单的情况下,Y与X之间的关系是线性关系。用线性函数a+bX來估计Y的数学期望的问题称为一元线性回归问题。即,上述估计问题相当于对x的每一个值,假设£(),)二加,而且,y〜N(a+hx,(72),其中a,b,。彳都是未知参数,并且不依赖于x。对y作这样的正态假设,相当于设,y=a+bx+£(3)其屮£〜N(0,ct2),为随机误差,a,b,。2都是未知参数。这种线性关系的确定常常可以通过两类方法,一类是根据实际问题所对应的理论分析,如各种经济理论常常会揭示一些基本的数量关系;另一种直观的方法是通过Y与X的散点图來初步确认。对于公式(3)中的系数a.b,需要Ftl观察来进行估计.如果由样本得到了a,b的估计值'ha.b,则对于给定的x,a+bx的估计为a--bx.记作夕,它也就是我们对y的估计。方程Ay=a--hx(4)称为y对x的线性回归方程,或回归方程,其图形称为回归直线。例1:有一种溶剂在不同的温度下其在一定量的水中的溶解度不同,现测得这种溶剂在温度x下,溶解于水中的数量y如下表所示:Xi0410152129365168yi66.771.076.380.685.792.999.4113.6125.1这里x是白变量,y是随机变量,我们要求y对x的冋归。其散点图如下: 12011010090807060-100102030405060701.2.2.确定回归系数在样本的容量为n的情况下,我们我们可以得到n对观察值为(石,兀)。现在我们要利用这n对观察值来估计参数a,b。显然,y的估计值为,y=a--bx在上式中a,b为待估计的参数。估计这两个参数的方法有极大似然法和最小二乘法。其中最小二乘法是求经验公式时最常用的一种方法,也最简单。现在就采用这种方法。当我们做出这一对变量观察值的散点图后,我们可以看出,我们所要求的冋归直线,实际上是这样的一条直线,即,使所求的直线能够最好的拟合已有的所有点,或者说要使图上所有的点到这条直线的距离最近。因此所要求的直线实际上就是使所有的点与这条直线间的误差最小的直线。我们用X•表示y的样本观察值,必表示根据回归方程所得到的y的估计值,则估计值与实际观察值之间的误差为,◎=开一刃=yi-a-bxi(5)其总的误差,可以表示为误差的平方和的形式,0(涵=工彳=^(Z-Z)2=^(yi-d-bxi)2(6)现在要使上式取得极小值,只需令Q对a,b的一阶偏导等于0,因此, dada=_2(工y-滋-Z工x)=0a^~-a-bx^=-2(^xy-a^x-b^x2)=0由此可解得如下结果,Y(x-x)(y-y)2>s>)2其中Nb就是参数比b的无偏估计。此外,所谓最小二乘估计,实际上就是使误差的平方和最小的估计。一但估计出了回归方程的系数,我们就可以在给定的x值的情况下对y进行估计,或预测。例2:求例1中的y关于x的回归方程。解:此处,冲9,有关回归方程计算所需要的数据如下:Xy.V22yxy066.70444&890471.0165041.00284.01076.31005821.69763.01580.62256496.361209.02185.74417344.491799.72992.98418630.412694」3699.412969880.363578.451113.6260112904.965793.668125.1462415650.018506.8工234811.3101447621&1724628.6n=(),x=—=26,y==90.144499 92工(兀-兀)=406092工(开_刃=3083.9822/=19工(兀―对(X—刃=3534.8?=19为(无一元)(兀一刃匸1-£(旳-元)2/=!用SPSS求得的结果如下:Coefficient^ModelUnstandardizedCoefficientsStandardizedCoefficientstSig.BStd.ErrorBeta1(Constant)67.508.505133.553.000X.871.015.99957.826.000a.DependentVariable:Y因此所求的回归直线方程为:^=67.5078+0.8706%1.2.3.*参数估计量的分布为了对前面所作的y与x是线性关系的假设的合理性进行检验,为了求出预测值的置信区间,我们必须知道所估计的参数的分布。1./;的分布:为(石-可(兀-刃由于£3-元尸/=1按假定,风』2,…儿相互独立,而且已知y〜N(g+分,”2),其中兀•为常数,所以 由:的表达式知歩为独立正态变量)1,力,…儿的线性组合,于是$也是正态随机变量。可以证明△〜N(bQ2/£(£_元)2)/=!另外,对于任意给定的x二兀0,其对应的回归值54-bx0,由于a=y-bx,所以可以写成,5o"+加0=歹+此0—元)也就是说,在x=x()处y所对应的估计值也是一个正态分布的随机变量,可以证明,?o~N(a+bx°,丄+—C2)n£(兀-M1.方差。彳的估计:为了估计方差,考查各个兀•处的升与其相对应的回归值=y+b(xi-x)与其离差兀一必的平方和SSD:SS"工37)2;=1可以证明,其期望值为,E(SSD)=Ot—20因此,E(SSD)/(n-2)是er?的无偏估计,即,而且,其自由度为n・2,其分布为,匕整単”_2)(7一b 1.2.4.线性假设的显著性检验现在來检验y=o+加+£,£〜N(0q2)这一线性假设是否合适,这也就是检验假设,H。:b=0:bH0由于设X〜N(O,1),Y〜力2⑺),并且X与Y相互独立,则随机变量t=,服从自由度为n的t(student)分布,记为(〜/(〃)。』Yln因此从上面的结果可以得知统计量,(5)因为在假设下b=0,所以,在此假设下,由此可得,如果,bpVV/=1或写成,b孑笛(兀-刘>(%(—2),Sb其中则在显著水平Q下拒绝假设H°:b=O,认为回归效果是显著的,也就是说y与x之间 存在着线性关系y=a^hx+£;若上述不等式反号,就认为回归效果不显著,回归效果不显著的原因可能有以下几种:1.影响y的除x外,还有其它不可忽略的因素:2.y与x的关系不是线性的,而是存在着其他的关系;3.y与x无关。因此,在这样的情况下,要查明原因,分别处理。例3:检验例2的回归效果是否显著。取q=0.05。解:因为n二9所以利用前面计算的结果,代入上式,有注意,-Z-)2=工(X-刃2_匹(兀厂元)2/=1/=1Z=1在此,(H-2)=/()025(7)=2.3646<56.58,所以拒绝H。,即认为线性回归的效果是显著的。在线性回归的效果显著时,由(5)式可得到b的100(1-«)%的置信区间为:另一种进行检验假设,H.:b=0HjbHO的方法是利用F分布。其公式为:尸二工®—刃匕伙_1)工(乳一刃2心一幻其中,k表示冋归方程中的系数的个数,在一元线性冋归中显然只有两个系数,所以k=2,n表示样本数。统计量F的公式可以表示成:F=宀伙-1) ~(l-r2)/(n-Z:)拒绝域为:F>你(1,九一2)1.2.5.置信区间在利用回归分析进行预测的过程中,我们不仅需要知道预测变量的值,往往还需要了解它的变化范围,即点估计和区间估计的问题。对于任意给定的x=旺),其对应的y的观察值的取值范围可以采用以下方法确定:设x=x0,其对应的y值为yo,则儿刊+如+窃,q〜N(Oq')上式中,除兀o外,其他参数都是未知的,我们只能使用它们的估计量,考虑随机变量,〃二儿一%显然,E(u)=E(yo)-E(yo)=O而且%是各X的线性组合,且九与各x是相互独立的,都是正态变量,所以它们的差u=y0-y.是两个相互独立的正态随机变量的差,因此,D(W)=D(y0-y0)=D(y0)+D(y0)由于D(y())=a2D(y.)=1(心-丘尸y1(Jn£(d2从而得到, 疋=D(w)=]+1+(兀0_兀)2n£(兀-兀尸1=1也就是,—〜2(0,1)6由前面咤窪~八-2)o~并且可以证明上一与5—2)6相互独立,于是<72心一2)即,儿一>0〜t(n-2)1+丄+”(观_元)2n£(兀-无尸/=1所以yo的100(1-a)%的置信区间为:/、yQ±t(n-2)a/&li+】+(D?“nIY-元尸匸1丿从上式可以看出,对于给定的样本观察值及置信度而言,当必越是靠近其均值壬,预测区间的宽度就越是窄小,预测也就越精确。若将上式记为(九±/(兀0)),对于给的样本观察值,作出曲线,H(X)=$±/(Xo)y2(x)=y±^(x0) 则这两条曲线形成一含回归直线y=a^bx的区域,它在兀=亍处最窄。如下图所示。例4:续前例,求y的置信区间。若a二0.0界解:由冋归方程,9=67.5078+0.8706%可以求得置信度为95%的置信区间为:t%(/?-2)=r0025(7)=2.3646R&=0.9804,(67.5078+0.8706x±2.3183J—+。一"))V94060例如,在兀=25时,y的95%的置信区间为:(89.2728±2.5632)=(86.7096,91.8360)1.2.6.相关分析在前面的推导过程中我们假定X是一确定的量,它与随机变量y之间存在线性关系,因此我们可以得到线性回归模型。现在,如果x,y都是随机变量,那么这两个随机变量之间究竟有没有关系,这就是相关分析所要做的工作。1.相关系数如果x,y这两个随机变量之间确实有线性关系存在,则我们可以用一个所谓的相关系数P衡量这种关系。P是一个介于-1和+1之间的一个数,如果对一对随机变量x,y而言,其P值接近+1或-1则说明它们之间存在着很强的相关关系。在两个随机变量的情况下,我们可以将其分布视为联合分布,即这时的分布在X轴上是x的分布,在Y轴上是y的分布,其联合分布则是三维空间上的一个曲面。在这样的情况下,我们可以用类似于方差的定义,来定义这两个随机变量的协方差。 1Ns厂C"(X,Y)=石工3•-“,)6—N/=!此外,我们知道,|N2二花工(兀-A.v)‘V/=1现在可以给出相关系数的定义,如杲我们用样本的协方差来估计总体的协方差,则公式稍有不同,即=Cov(X,Y)=1n-l£(兀一元)(兀一刃/=!茲-劝2;=1弘-刃2/=!例:现在需要研究人们用于公共交通的支出占其总收入的情况,为此收集到如下数据:X(1000)y9X9137016949009101855324302599091008110000900254062516001000361513962255401920361400380工1203002856201504720在此,我们只能利用样本的相关系数来估计总体的相关系数,rti1n1”1h”—工(兀―元)(%—刃=—-工无必一一工无为兀«-1/=!〃一1L/•=!n/=!/=!丄4720--(120)(300)=-2566—16 n-~{n-1/=!、216-191.2i=l716^11030=-0.835对于相关系数,我们两样可以进行假设检验,也就是说检验变量x,y之间的相关程度,这对于实际工作是非常重要的,也是我们进行回归分析的前提条件。这吋的假设为,H°:p=0,H:p^O拒绝域为:如果/>他(/?-2)或/2.776或t<2776则拒绝假设H。。在此例屮,-0.8350.835)2]/(6-2)二_0.835-0.0757=-3.03由于t=-3.03<-2.776所以拒绝原假设,接受备择假设,即认为人们的收入与用与公共交通方而的支出确实存在负相关的关系。注意,这种假设检验只能检验P=0的情况,而不能检验P等于不为0的某个数。1.可决系数 (D=(2)+(3) 工(刃-刃2+氐•-刃2=工。-拆+氐-刃2="T徉疔%、严"-才"2"•-才[工山一元)b-材工(兀可所以,2二工®—刃彳二[工(兀一元)(H—卅—工3-疔—工(无-才工®-刃彳可决系数与相关系数的关系可以用來判断Y与X之间的关系,值得注意的是,如果可决系数或相关系数的值较小,并不能说明Y与X没有关系,只能说明它们之间没有线性关系。如果如果可决系数或相关系数的值较大,只能说明这两个暈Z间确实存在线性关系,但是并不一定就是因果关系,对于因果关系的认定,只能通过定性分析来解决。例如,经相关性检验发现美国的一座城市的犯罪率与该市的赌场所雇佣的员工人数有很强的相关关系,如果据此就断定是因为赌场开多了所以犯罪人数就增多是不合适的,因为实际情况可能是,由于旅游业的发展使赌场雇佣的员工才多,同时,由于流动人口的增多,使犯罪率也随之上升。因此采用关闭赌场的方式来解决问题未免过于简单。1.2.7.一元非线性回归由于在现实屮,线性关系在存在毕竟有限,所以我们面对的大量问题都是非线性的问题,在这种情况下,我们希望能将一元线性回归的结论用于非线性的场合,这时就需要做一些变换和处理工作。对于下面这些形式的非线性函数我们可以将其转换成线性函数来处理,女U,z=ABX对上式两边取对数,有logz=logA+logBxx令y=logz,则有y=a-}-bx其中,a-log二logB此类函数还有,y二d+仝等。此外,在实际工作中有一个函数非常重要,可能会在许多场合出现,这就是logistic函 数,1"丄+泅K其中K为变量Y的上限值,这吋可以采用如下方法进行变换ln()=lna+(lnb)fyK当然,在SPSS中,可以直接处理。1.3多元回归分析一元冋归的方法很容易就可以推广到多元的问题。这在实际工作出是经常出现的,因为对于一个事物来说,影响它的因素是多方面的,当这些因素屮每一个都很重要,或者说有儿个是很重要的,而不是只有一个因素最重要,这时我们就需要用到多元回归分析的方法。如在预测销售量吋,在最简单的情况下,可以认为它只与你的广告预算有关,但在实际工作屮,如果要比较准确地预测销售量,可能还需要考虑其他因素,女U,季节因素、库存情况、销售能力、生产率等。1.3.1.多元回归模型i般情况下,多元线性回归模型为y=a+blxi+—bkxk+£其中,y是因变ft,Xi为自变量,E(y)=a+b{x{+•••+bkxk是用来预测的部分。£为随机误差。回归系数%确定了自变量占对因变量的大小的贡献。注意,七可能本身为高阶项,如疋可能就是兀:。由于多元回归模型屮包含的项数非常多,因此实际模型的结构可能非常复杂多变。如一支香烟中所散发出的一氧化碳的数量级y可能是下列自变量的函数:刃二焦油含量疋二兀:无3二尼古丁含量兀4=siiW,其中/为时间变量。 对于多元冋归分析问题,我们也基本可以按照一元回归问题的处理方式来处理。即按下列步骤进行,1.收集样本数据,即一系列关于y,坷,花,…,耳的值;2.假设模型的具体形式,选择进入模型的变量;3.估计未知参数bi;4.确定随机误差£的分布并估计其方差o2;5.检验模型的适用性;6.如果模型可用,则在给定自变量值的情况下估计因变量的均值。以上步骤只是一个大致方法,在应用时会有许多实际问题,尤其是其中的第二步,关于模型和变量的确定问题。这里我们先假设模型的形式己经确定。1.3.2.多元回归模型参数估计1.回归系数的估计上面己经给出了多元回归模型的一般形式,y=a+b內Hhkxk+£英中随机误差£的均值为0,方差为o'。对于回归系数无法得到,所以只能用其估计值,因此估计模型为,y=0+勺兀]+—bkxk英屮回归系数的估计值⑦几,&也同样采用最小二乘法进行估计。即令误差的平方和对各回归系数的一阶偏导等于0,其中误差的平方和为,SSD二立%-九尸1=1具体计算比较复杂,一般都是通过统计软件计算得到。2.方差。2的估计:宀SSD=】£"2斤一伙+1)斤一伙+1)台'其中,k表示回归方程中的系数的个数,n表示样本数。 1.3.3.归系数假设检验1.单个系数的检验 对于回归系数b、,*…,叽中的每一个可以单独进行是否为0的假设检验,这也就是检验假设,Hq:bj=0H{:bt工0Abid这时,统计量为t=——,其中》=fbi拒绝域为,t=——>ta/[n一伙+1)]%/2其中,k表示回归方程中的系数的个数,n表示样本数。如果上述不等式确实成立,则在显著水平Q下拒绝假设H°:bj=O,认为变量旺的冋归效果是显著的,也就是说y与无Z间存在着线性关系;若上述不等式反号,就认为无回归效果不显著。1.整个模型的检验在开始时,我们提到,对于已经建立的模型,在实际使用之前要检验其适用性,或者说要检验用所得到的模型是否能够充分地对因变量y进行预测。尽管我们上面已经对模型屮的每一个冋归系数都进行了t假设检验,但这还不够。因为,作为一个自变量,它可能与因变量的回归效果确实是显著的,然而,作为一个多变量的模型整体来说,可能回归效果并不显著。其原因可能是多方面的,最简单的如共线性问题。总之,我们还需要刈•模型整体的回归效果进行检验。检验假设,H()=b2=•••=&,=0Hi:回归系数仇,E…,仇屮至少有一个不等于0统计量为,英屮,k表示回归方程中的系数的个数,在一元线性回归屮显然只有两个系数,所以k=2,n表示样本数。拒绝域为,F>F°(k,n—k—)即,当上述不等式成立吋,则认为原假设不成立,或者说整个模型的回归效果是显著的。F的公式可以表示成:F二//(—I) -(l-R2)/(n-k)其中R?为回归方程的可决系数。1.3.4.多元回归可决系数与置信区间1.可决系数在多元回归的情况下,为了表明因变量与自变量之间的相关程度或说明可用回归方程对变量解释的程度,我们可以与一元回归类似的方式构造可决系数R2,同样,其表达式仍然是,r2=工(X—刃彳一工(兀一九F二1_工(X—刃尸"为心-疔"一工®-刃彳0

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
大家都在看
近期热门
关闭