欢迎来到天天文库
浏览记录
ID:56823623
大小:329.00 KB
页数:23页
时间:2020-07-15
《用Excl计算相关系数和进行回归分析.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第一节 回归和相关的概念 前几章的方法都只涉及一种变量,主要是比较它的各组值之间的差异。但生物学所涉及的问题是多种多样的,对许多问题的研究需要考虑不只一个变量,例如生物的生长发育速度就与温度,营养,湿度……等许多因素有关,我们常常需要研究类似的多个变量之间的关系。这种关系可分为两大类,即相关关系与回归关系。相关关系:两变量X,Y均为随机变量,任一变量的每一可能值都有另一变量的一个确定分布与之对应。回归关系:X是非随机变量或随机变量,Y是随机变量,对X的每一确定值xi都有Y的一个确定分布与之对应。 从上述定义可看出相关关系中的两个变量地位是对称的,可以认为它们互为因果
2、;而回归关系中则不是这样,我们常称回归关系中的X是自变量,而Y是因变量。即把X视为原因,而把Y视为结果。 这两种关系尽管有意义上的不同,分析所用的数学概念与推导过程也有所不同,但如果我们使用共同的标准即使y的残差平方和最小(最小二乘法,详见下述),则不管是回归关系还是相关关系都可以得到相同的参数估计式。因此本章将集中讨论数学处理较简单的回归关系,且X限定为非随机变量。从这些讨论中所得到的参数估计式也可用于X为随机变量的情况,但我们不再讨论X为随机变量时的证明与推导。 另外,回归分析和相关分析的目的也有所不同。回归分析研究的重点是建立X与Y之间的数学关系式,这种关系式常
3、常用于预测,即知道一个新的X取值,然后预测在此情况下的Y的取值;而相关分析的重点则放在研究X与Y两个随机变量之间的共同变化规律,例如当X增大时Y如何变化,以及这种共变关系的强弱。由于这种研究目的的不同,有时也会引起标准和方法上的不同,我们将在相关分析一节中作进一步介绍。 从两个变量间相关(或回归)的程度来看,可分为以下三种情况: (1)完全相关。此时一个变量的值确定后,另一个变量的值就可通过某种公式求出来;即一个变量的值可由另一个变量所完全决定。这种情况在生物学研究中是不太多见的。 (2)不相关。变量之间完全没有任何关系。此时知道一个变量的值不能提供有关另一个变量的
4、任何信息。 (3)统计相关(不完全相关)。介于上述两种情况之间。也就是说,知道一个变量的值通过某种公式就可以提供关于另一个变量一些信息,通常情况下是提供有关另一个变量的均值的信息。此时知道一个变量的取值并不能完全决定另一个变量的取值,但可或多或少地决定它的分布。这是科研中最常遇到的情况。本章讨论主要针对这种情况进行。为简化数学推导,本章中如无特别说明,一律假设X为非随机变量,即X只是一般数字,并不包含有随机误差。但所得结果可以推广到X为随机变量的情况。 两个变数资料的散点图 将两个变数的n对观察值(x1,y1)、(x2,y2)、…、(xn,yn)分别以坐标点的形式标
5、记于同一直角坐标平面上得到的图,称为散点图(scatterdiagram)。 第二节 直线回归 前边已经说过,回归关系就是对每一个X的取值xi,都有Y的一个分布与之对应。在这种情况下,怎么建立X与Y的关系呢?一个比较直观的想法就是建立X与Y的分布的参数间的关系,首先是与Y的均值的关系。这就是条件均值的概念,记为:。它的意思是在X=x1的条件下,求Y的均值。更一般地,我们用代表X取一切值时,Y的均值所构成的集合。所谓一元线性回归,就是假定X与之间的关系是线性关系,而且满足:(9.1)此时进行回归分析的目标就是给出参数α和β的估计值。
6、 [例9.1]对大白鼠从出生第6天起,每三天称一次体重,直到第18天。数据见表5.1。试计算日龄X与体重Y之间的回归方程。表9.1大白鼠6-18日龄的体重序号12345日龄xi69121518体重yi1116.5222629 首先,我们可以把数对(xi,yi)标在X-Y坐标系中,这种图称为散点图。它的优点是可以使我们对X、Y之间的关系有一个直观的、整体上的印象,如它们是否有某种规律性,是接近一条直线还是一条曲线,等等。我们还可以画很多条接近这些点的直线或曲线,但这些线中的哪一条可以最好地代表X,Y之间的关系,就不是凭直观印象可以做出判断的了。例如对例9.1,我们可画出如
7、下的散点图:图9.1大白鼠日龄—体重关系图 图中的点看来是呈直线关系,但那条直线是否最好地反映了这种关系呢?或者换一种说法:该如何找到最好地反映这种关系的直线呢?这就是我们以下要讨论的问题。 9.2.1一元正态线性回归统计模型 线性回归意味着条件平均数与X之间的关系是线性函数:(9.1)对于每个Y的观察值yi来说,由于条件均值由(9.1)式决定,观察值就应该是在条件均值的基础上再加上一个随机误差,即:(9.2)其中。正态线性回归中“正态”的意思是随机误差服从正态分布。(9.2)式就是一元正态线性回归的统计模型。 9.2
此文档下载收益归作者所有