资源描述:
《【精品】陈进源回归分析讲义》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、回归分析(陈进源)§1线性回归引论髙尔顿是生物统计学派的奠基人,他的农哥达尔文的巨著《物种起源》问世以后,触动他川统计方法研究智力遗传进化问题,第一次将概率统计原理等数学方法用于生物科学,明确捉出“牛物统计学”的名词.现在统计学上的“相关”和“回归”的概念也是高尔顿第一次使用的,他是怎样产生这些概念的呢?1870年,高尔顿在研究人类身长的遗传时,发现下列关系:高个子父母的子女,其身高有低于其父母身高的趋势,而矮个子父母的子女,其身高有高于其父母的趋势,即有“冋归”到平均数去的趋势,这就是统计学上最初出现“冋归”吋的涵义。回归分析(regress
2、ionanalysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。相关分析研究的是现象Z间是否相关、相关的方向和密切程度,一般不区别自变量或因变量。而冋归分析则要分析现象之间相关的具体形式,确定其因果关系,并用数学模型來衣现其具体关系。比如说,从相关分析中我们可以得知“质量”和“川户满意度”变量密切相关,但是这两个变量之间到底是哪个变量受哪个变量的影响,影响程度如何,则需要通过回归分析方法来确定。一般來说,冋归分析是通过规定因变量和自变量來确定变量之间的因果关系,建立冋归模型,并根据实测数据來求解模型的各个参数,然后评价冋
3、归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预测。冋归分析是研究变量之间相关关系的-•种统计推断法。例如,人的血压y与年龄x有关,这里x是一个普通变量,y是随机变量。Y与x之间的相依关系f(x)受随机误差£的干扰使Z不能完全确定,故可设有:"/“)+£(2.1—1)'式中f(x)称作冋归函数,£为随机误差或随机F扰,它是一个分布与x无关的随机变量,我们常假定它是均值为0的正态变量。为估计未知的回归函数f(x),我们通过n次独立观测,得x与y的n对实测数据(Xi,yi)i=l,,n,对f(x)作估计。实际中常遇到
4、的是多个自变量的情形。例如在考察某化学反应时,发现反应速度y与催化剂用量X
5、,反应温度X2,所加压力X3等等多种因素有关。这里x】,X2,……都是可控制的普通变量,y是随机变量,y与诸蜀间的依存关系受随机干扰和随机误差的影响,使之不能完全确定,故可假设冇:这里£是不可观察的随机误差,它是分布与",……人无关的随机变塑,一般设其均值为0,这甲的多元函数f(xh……凡)称为冋归函数,为了估计未知的冋归函数,同样可作n次独立观察,基于观测值去估计f(X],……,Xk)。以下的讨论中我们总称自变量X],X2,……入为控制变量,y为响应变量,不难想彖,如
6、对回归函数f(xh……比)的形式不作任何假设,问题过于一燉,将难以处理,所以本章将主要讨论y和控制变量xi,X2,……人呈现线性相关关系的情形,即假定f(x1,,xk)=b()+b1X
7、++bkXk。并称由它确定的模型(2.1-l)'(k=1)及(2.1-lf为线性回归模型,对于线性回归模型,估计回归函数f(xh……,xj就转化为估计系数b。、bi(i=l,……,k).当线性冋归模型只有一个控制变量时,称为一元线性冋归模型,有多个控制变量时称为多元线性回归模型,本着由浅入深的原则,我们重点讨论一元的,在此基础上简单介绍多元的。§2一元线性回归一
8、、一元线性回归的数学模型前血我们曾提到,在一元线性回归中,有两个变量,其中x是可观测、可控制的普通变量,常称它为自变量或控制变量,y为随机变量,常称其为因变量或响应变量。通过散点图或计算相关系数判定y与xZ间存在着显著的线性相关关系,即y与xZ间存在如下关系:y=a+bx+£(2.1-6)通常认为£〜MO,o2)H假设异与x无关。将观测数据(Xi,yd(i=l,……,n)代入(2.1-6)再注意样本为简单随机样本得:fyi=a+bxi+£i(i=l,・・・,/2),禺独立同分布"(0Q2)(丿称(2.1-6)或(2.1-7)(乂称为数据结构式)
9、所确定的模型为一元(正态)线性回归模型。对其进行统计分析称为一元线性回归分析。不难理解模型(2.1-6)中EY=a+bx,若记y=E(Y),则y=a+bx,就是所谓的一元线性回归方程,其图彖就是回归直线,b为回归系数,a称为回归常数,有时也通称a、b为回归系数。我们对一元线性回归模型主要讨论如下的三项问题:(1)对参数a,b和。$进行点估计,估计量称为样本冋归系数或经验冋归系数,而y=a+bx称为经验回归真线方程,其图形相应地称为经验回归直线o(2)在模型(2.1・6)下检验y与x之间是否线性相关。(3)利用求得的经验回归宜线,通过x对y进行预
10、测或控制。二、a、b的最小二乘估计现讨论如何根据观测值(x』),i=l,2,,n估计模型(2.1-6)中回归函数f(x)=a+bx中的回归系数。采用最