欢迎来到天天文库
浏览记录
ID:57446294
大小:842.00 KB
页数:97页
时间:2020-08-19
《统计学--线性回归分析课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第12章双变量回归与相关LinearRegressionandCorrelationContent1.Linearregression2.Linearcorrelation3.Rankcorrelation4.Curvefitting双变量计量资料:每个个体有两个变量值总体:无限或有限对变量值样本:从总体随机抽取的n对变量值(X1,Y1),(X2,Y2),…,(Xn,Yn)目的:研究X和Y的数量关系方法:回归与相关简单、基本——直线回归、直线相关英国人类学家F.Galton首次在《自然遗传》一书中,提出并阐明了“相关”和“相关系数”两个概念,为
2、相关论奠定了基础。其后,他和英国统计学家KarlPearson对上千个家庭的身高、臂长、拃长(伸开大拇指与中指两端的最大长度)做了测量,发现:历史背景:儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系:。也即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“回归”。目前,“回归”已成为表示变量之间某种数量依存关系的统计学术语,并且衍生出“回归方程”“回归系数”等统计学概念。如研究糖尿病人血糖与其胰岛素水平的关系,研
3、究儿童年龄与体重的关系等。第一节直线回归一、直线回归的概念目的:研究应变量Y对自变量X的数量依存关系。特点:统计关系。X值和Y的均数的关系,不同于一般数学上的X和Y的函数关系。为了直观地说明两相关变量的线性依存关系,用表12-1第(2)、(3)列中大白鼠的进食量和体重增加量的数据在坐标纸上描点,得图12-1所示的散点图(scatterplot)。例12-1用某饲料喂养12只大白鼠,得出大白鼠的进食量与体重增加量如表12-1,试绘制其散点图。表12-112只大白鼠的进食量(g)与体重增加量(g)测量结果在定量描述大白鼠进食量与体重增加量数量上的依
4、存关系时,习惯上将进食量作为自变量(independentvariable),用X表示;体重增加量作为应变量(dependentvariable),用Y表示。由图12-1可见,体重增加量有随进食量增加而增大的趋势,且散点呈直线趋势,但并非12个点都在直线上,此与两变量间严格的直线函数关系不同,称为直线回归(linearregression),其方程叫直线回归方程,以区别严格意义的直线方程。回归是回归分析中最基本、最简单的一种,故又称简单回归。直线回归方程为各X处Y的总体均数的估计。一般表达式为1.a为回归直线在Y轴上的截距。a>0,表示直线与纵
5、轴的交点在原点的上方;a<0,则交点在原点的下方;a=0,则回归直线通过原点。a=0a<0a>0XYb>0,直线从左下方走向右上方,Y随X增大而增大;b<0,直线从左上方走向右下方,Y随X增大而减小;b=0,表示直线与X轴平行,X与Y无直线关系。XY2.b为回归系数,即直线的斜率。b的统计学意义是:X每增加(减)一个单位,Y平均改变b个单位。b>0b<0b=0二、直线回归方程的求法残差(residual)或剩余值,即实测值Y与假定回归线上的估计值的纵向距离。求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线。原则:最小二乘法
6、(leastsumofsquares),即可保证各实测点至直线的纵向距离的平方和最小(X,Y)(12-3)例12-2(续例12-1)根据表12-1数据,对大白鼠的体重增加量进行回归分析。解题步骤此直线必然通过点(,)且与纵坐标轴相交于截距a。如果散点图没有从坐标系原点开始,可在自变量实测范围内远端取易于读数的X值代入回归方程得到一个点的坐标,连接此点与点(,)也可绘出回归直线。二直线回归中的统计推断1回归系数的假设检验建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述,研究者还须回答它所来自的总体的直线回归关系是否确实存在,即是否对
7、总体有?1.1回归系数的方差分析数理统计可证明:上式用符号表示为式中上述三个平方和,各有其相应的自由度,并有如下的关系:如果两变量间总体回归关系确实存在,回归的贡献就要大于随机误差,大到何种程度时可以认为具有统计意义,可计算统计量F:式中2.t检验例12-3(续例12-1)根据表12-1数据进行回归系数的方差分析。解:先列出下列计算结果(3)确定P值。查F界值表,P<0.001。(4)下结论。按水准,拒绝H0,接受H1,故可以认为体重的增加量与进食量之间有直线关系。t检验方法前已算得:注意:(二)回归方程可信区间与预测一、总体回归系数的区间估计
8、例12-5(续例12-1)试估计总体回归系数的95%的可信区间。二、二、的区间估计是指总体中当X为一定值时的均数。把代入回归方程所求得的估计值,为样本
此文档下载收益归作者所有