欢迎来到天天文库
浏览记录
ID:50768237
大小:988.01 KB
页数:62页
时间:2020-03-14
《线性相关与回归(简单线性相关与回归、多重线性回归、Spearman等级相关).ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、SPSS软件在医学科研中的应用何平平北大医学部流行病与卫生统计学系Tel:82801619线性相关与回归内容:多重线性回归分析简单线性相关与回归Spearman等级相关特例(一)直线回归(linearregression)1.定义:用直线方程表达X(自变量,independentvariable;解释变量,explanatoryvariable;预测变量,predictorvariable)和Y(因变量,dependentvariable;响应变量,responsevariable;结局变量,outcomevariable)之间的数量关系。一、简单线性相关与回归:是Y
2、(实测值)的预测值(predictedvalue),是直线上点的纵坐标。对于每一个X值,根据直线回归方程都可以计算出相应的Y预测值。(具体计算过程参见《卫生统计学》第4版)。2.b和a的意义a:是回归直线在Y轴上的截距,即X=0时Y的预测值。b:是回归直线的斜率,又称为回归系数。表示当X改变一个单位时,Y的预测值平均改变
3、b
4、个单位。3.b和a的估计最小二乘方法(themethodofleastsquares):各实测点到直线的纵向距离的平方和最小。4.b的假设检验:b为样本回归系数,由于抽样误差,实际工作中b一般都不为0。要判断直线回归方程是否成立,需要检验总体回归
5、系数是否为0。只有当0时,才能认为直线回归方程成立(具有统计学意义)。H0:=0H1:0方法一:t检验方法二:F检验两种方法等价,5.直线回归方程的置信区间估计(1)总体回归系数的95%置信区间估计(2)Y的均数的95%置信区间估计当X=X0时,以95%的概率估计Y的均数的置信区间为(3)个体Y值的95%容许区间估计当X=X0时,以95%的概率估计个体Y值的波动范围为1.定义描述具有直线关系的两个变量之间的相互关系。(二)直线相关(linearcorrelation)r:相关系数,correlationcoefficient用来衡量有直线关系的两个变量之
6、间相关的密切程度和方向。-1r1r>0,正相关;r=1为完全正相关r<0,负相关;r=-1为完全负相关
7、r
8、越大,两变量相关越密切(前提:r有统计学意义)2.相关类型正相关:09、r10、的大小判断相关的密切程度。3.r的假设检验H0:=0H1:04.相关与回归的区别和联系(1)相关与回归的意义不同相关表达两个变量之间相互关系的密切程度和方向。回归表达两个变量之间11、的数量关系,已知X值可以预测Y值。从散点图上,散点围绕回归直线的分布越密集,则两变量相关系数越大;回归直线的斜率越大,则回归系数越大。(2)r与b的符号一致同正同负。(3)r与b的假设检验等价(4)可以用回归解释相关r2称为决定系数(coefficientofdetermination),其越接近于1,回归直线拟和的效果越好。4.相关与回归的区别和联系例1为研究中年女性体重指数和收缩压的关系,随机测量了16名40岁以上的女性的体重指数和收缩压(见数据文件p237.sav)。变量说明:X:体重指数;Y:收缩压(mmHg)。1.绘制散点图散点图显示:收缩压与体重指数之间有12、线性相关趋势,因此可以进一步做直线回归与相关2.直线回归与相关分析Regression,回归Linear,线性2.直线回归与相关分析因变量自变量P值相关系数r决定系数r2调整r2截距a回归系数bsb标准化回归系数t值P值F值3.直线回归的预测及置信区间估计给定X=X0,预测Y3.直线回归的预测及置信区间估计因变量自变量统计保存(产生新变量,保存在当前数据库)3.直线回归的预测及置信区间估计总体回归系数的置信区间估计3.直线回归的预测及置信区间估计预测值非标准化预测区间Y的均数个体Y值总体回归系数的95%置信区间预测值残差3.直线回归的预测及置信区间估计3.直线回归的预13、测及置信区间估计X0Y的预测值Y的均数的置信区间的下限及上限个体Y值的容许区间的下限及上限例2:由于改革开放政策,深圳特区中外来人口大幅度增加,为了考察特区中外来人口对本地经济发展的贡献,深圳特区统计局收集了所属的宝安县在1987年末18个镇的人口与工农业总产值数据(见数据文件reg.sav)。此处把工农业总产值当作因变量(W),而把外地及本地人口数当作两个自变量(Z1,Z2)。二、多重线性回归分析(有关统计方法的原理及计算参见孙尚拱,《医学多变量统计与统计软件》,北京医科大学出版社,2000)数据文件reg.sav1.如何估计自变量与因变量之间的相
9、r
10、的大小判断相关的密切程度。3.r的假设检验H0:=0H1:04.相关与回归的区别和联系(1)相关与回归的意义不同相关表达两个变量之间相互关系的密切程度和方向。回归表达两个变量之间
11、的数量关系,已知X值可以预测Y值。从散点图上,散点围绕回归直线的分布越密集,则两变量相关系数越大;回归直线的斜率越大,则回归系数越大。(2)r与b的符号一致同正同负。(3)r与b的假设检验等价(4)可以用回归解释相关r2称为决定系数(coefficientofdetermination),其越接近于1,回归直线拟和的效果越好。4.相关与回归的区别和联系例1为研究中年女性体重指数和收缩压的关系,随机测量了16名40岁以上的女性的体重指数和收缩压(见数据文件p237.sav)。变量说明:X:体重指数;Y:收缩压(mmHg)。1.绘制散点图散点图显示:收缩压与体重指数之间有
12、线性相关趋势,因此可以进一步做直线回归与相关2.直线回归与相关分析Regression,回归Linear,线性2.直线回归与相关分析因变量自变量P值相关系数r决定系数r2调整r2截距a回归系数bsb标准化回归系数t值P值F值3.直线回归的预测及置信区间估计给定X=X0,预测Y3.直线回归的预测及置信区间估计因变量自变量统计保存(产生新变量,保存在当前数据库)3.直线回归的预测及置信区间估计总体回归系数的置信区间估计3.直线回归的预测及置信区间估计预测值非标准化预测区间Y的均数个体Y值总体回归系数的95%置信区间预测值残差3.直线回归的预测及置信区间估计3.直线回归的预
13、测及置信区间估计X0Y的预测值Y的均数的置信区间的下限及上限个体Y值的容许区间的下限及上限例2:由于改革开放政策,深圳特区中外来人口大幅度增加,为了考察特区中外来人口对本地经济发展的贡献,深圳特区统计局收集了所属的宝安县在1987年末18个镇的人口与工农业总产值数据(见数据文件reg.sav)。此处把工农业总产值当作因变量(W),而把外地及本地人口数当作两个自变量(Z1,Z2)。二、多重线性回归分析(有关统计方法的原理及计算参见孙尚拱,《医学多变量统计与统计软件》,北京医科大学出版社,2000)数据文件reg.sav1.如何估计自变量与因变量之间的相
此文档下载收益归作者所有