欢迎来到天天文库
浏览记录
ID:58673674
大小:2.18 MB
页数:100页
时间:2020-10-05
《第十章__双变量回归与相关ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第十章两变量之间关系的分析——回归与相关LinearRegressionandCorrelation1问题引出对两个变量之间关系的研究,例如糖尿病病人的血糖与胰岛素水平的关系如何?分析资料涉及每个病人的两个变量值(血糖、胰岛素水平),称为双变量资料(Bivariatedata),记作:(X1,Y1),(X2,Y2),…,(Xn,Yn)分析目的:研究X和Y之间的数量关系分析方法:简单线性回归和简单线性相关。2第一节简单线性回归SimpleLinearregression3十九世纪英国人类学家F.Galt
2、on(1822-1891)在由父亲身高与儿子身高的关系的观察分析中,提出了著名的“相关”(correlation)与“回归”(regression)理论。历史背景:4最初,Galton是将子代身高趋向于种族稳定的自然现象称之向均数“回归”。目前,“回归”已成为表示变量之间某种数量依存关系的统计学术语,并且衍生出“回归方程”“回归系数”等统计学概念。如研究糖尿病病人血糖与其胰岛素水平的关系,研究儿童年龄与体重的关系等。5一、线性回归的概念目的:如果以某个变量X作为自变量,研究另一个变量Y(应变量)对自变
3、量X的数量依存关系,就是线性回归。特点:线性回归关系是统计关系,不同于一般数学上的X和Y的函数关系。6例9-1某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h)如表9-1。估计尿肌酐含量(Y)对其年龄(X)的回归方程。7表9-18名正常儿童的年龄(岁)与尿肌酐含量(mmol/24h)81029在定量描述儿童年龄与其尿肌酐含量数量上的依存关系时,将年龄称为自变量(independentvariable),用X表示;尿肌酐含量称为应变量(dependentvariable),用Y表示。10由
4、图9-1可见,尿肌酐含量Y随年龄X增加而增大且呈直线趋势,但并非8个散点恰好都在一条直线上,这与两变量间严格的直线函数关系不同,称为直线回归(linearregression),其方程叫直线回归方程,以区别严格意义的直线方程。双变量直线回归是回归分析中最基本、最简单的一种,故又称简单回归(simpleregression)。11直线回归方程的一般表达式为为各X处Y的总体均数的估计。121.a为回归直线在Y轴上的截距。a>0,表示直线与纵轴的交点在原点的上方;a<0,则交点在原点的下方;a=0,则回归直
5、线通过原点。a=0a<0a>0XY13b>0,直线从左下方走向右上方,Y随X增大而增大;b<0,直线从左上方走向右下方,Y随X增大而减小;b=0,表示直线与X轴平行,X与Y无直线关系。XY2.b为回归系数,即直线的斜率。*b的统计学意义是:X每增加(或减少)一个单位,Y平均改变的单位数。b>0b<0b=0141510216二、直线回归方程的求法残差(residual)或剩余值,即实测值Y与假定回归线上的估计值的纵向距离。求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线。最小二乘法
6、(leastsumofsquares)原则:即保证各实测点至直线的纵向距离的平方和最小。(X,Y)171819例9-1某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h)如表9-1。估计尿肌酐含量(Y)对其年龄(X)的回归方程。20表9-18名正常儿童的年龄(岁)与尿肌酐含量(mmol/24h)21解题步骤222324此直线必然通过点(,)且与纵坐标轴相交于截距a。如果散点图没有过坐标系原点,可在自变量实测范围内远端取易于读数的X值代入回归方程得到一个点的坐标,连接此点与点(,)也可绘出回
7、归直线。2510226三、直线回归中的统计推断27(一)回归方程的假设检验建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述,研究者还须回答它所来自的总体的直线回归关系是否确实存在,即是否对总体有?2810229301.方差分析3110232(X,Y)数理统计可证明:33上式用符号表示为式中3435上述三个平方和,各有其相应的自由度,并有如下的关系:36如果两变量间总体回归关系确实存在,回归的贡献就要大于随机误差,大到何种程度时可以认为具有统计学意义,可计算统计量F。37式中:382.t检
8、验39例9-2检验例9-1数据得到的直线回归方程是否成立?40(1)方差分析41表9-2方差分析表列出方差分析表如表9-2。42(2)t检验43注意:44(二)总体回归系数的可信区间利用上述对回归系数的t检验,可以得到β的1-α双侧可信区间为45例9-3根据例9-1中所得b=0.1392,估计其总体回归系数的双侧95%可信区间。46(0.1392-2.447×0.0304,0.1392+2.447×0.0304)=(0.0648,0.2136)47(三)
此文档下载收益归作者所有