欢迎来到天天文库
浏览记录
ID:42716744
大小:818.50 KB
页数:60页
时间:2019-09-21
《医学统计学:双变量回归与相关》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、医学统计学双变量回归与相关BivariateRegressionandCorrelation前言大量的医学科研与实践中,经常会遇到对两个变量之间关系的研究。例如:糖尿病病人的血糖与胰岛素水平的关系;某人群年龄与收缩压的关系;儿童身高与体重的关系;动物实验中动物进食量与增加体重的关系等。常用回归与相关分析,属双变量分析范畴(bivariateanalysis)。第一节直线回归LinearRegression一、直线回归概念两变量关系确定性关系是指两变量间的关系是函数关系。已知一个变量的值,另一个变量的值可以通过这种函数关系精确计算出来。非确定性关系是指两变
2、量在宏观上存在关系,但并未精确到可以用函数关系来表达。直线回归概念示意图直线回归方程总体样本“Yhat”表示估计值,给定x时y的条件均数的估计值。直线回归方程Y应变量,响应变量(dependentvariable,responsevariable)X自变量,解释变量(independentvariable,explanatoryvariable)b回归系数(regressioncoefficient,slope)a截距(intercept,constant)截距a几何意义a>0:回归线与纵轴交点在原点上方。a<0:回归线与纵轴交点在原点下方。a=0:回归
3、线通过原点。统计学意义a表示自变量X取值为0时相应Y条件均数的估计值。a的单位与Y值相同当X可能取0时,a才有实际意义。回归系数b的几何意义XY回归系数b的统计学意义b表示自变量X变化一个单位时应变量Y的平均改变量。1~7岁儿童以年龄(岁)估计体重(kg)的回归方程:糖尿病患者以胰岛素水平(mU/L)估计血糖水平(mmol/L)的回归方程:直线回归分析的应用条件(LINE)线性(linear)独立(independent)给定X时,Y正态分布(normal)等方差(equalvariance)直线回归应用条件LINE示意图给定X时,Y是正态分布、不等方差
4、示意图小插曲:关于F.GaltonGalton(1822-1911)是一位人类学家,著名生物学家达尔文的表兄弟,早年学医,曾在剑桥大学念书。尽管他的数学不是很好,但在人类学和优生学研究中萌发的统计学思想,对生物统计的发展产生了深远影响,如“回归”、“双变量正态分布”的概念等。他没有子女,但一生写了9部书,发表了近200篇论文。1860年当选英国皇家学会会员,1909年被封为爵士,1910年获得英国皇家学会Copley奖。小插曲:为什么叫”回归“?“回归”这个词是由英国统计学家F.Galton创立的。他在研究父子身高(1078对数据)关系时发现,高个子的父
5、亲常生高个子的儿子,但儿子身高超过父亲的概率要小于低于父亲的概率;同样矮个子的父亲常生矮个子的儿子,但儿子身高比父亲更矮的概率要小于比父亲高的概率。也就是说不可能无限制的一代比一代高,或一代比一代矮。后代的高度有向平均高度回归的趋势;离开均值越远,所受到回归的压力也越大。“回归”这个词就由此而来。小插曲:为什么叫”回归“?F.GaltonK.Pearson二、直线回归方程的求法数据格式:序号变量1(年龄)变量2(尿肌酐)1133.542113.01393.09462.48582.566103.367123.18872.65重要提示根据原始数据,首先绘制散
6、点图,观察散点图中点子的分布情况,只有当点子分布呈直线趋势时,才进行直线回归分析。例9-1的散点图见图9-1。直线回归方程的求解:最小二乘原理YX直线回归方程的求解最小二乘法(LeastSquareMethod)三、直线回归中的统计推断(一)回归方程(回归系数)的假设检验回归系数也有抽样误差!总体β=0总体β≠0样本b≠0两变量有直线关系两变量无直线关系??回归方程(回归系数)的假设检验H0:=0,即两变量无直线关系H1:0,即两变量有直线关系=0.05检验方法F检验t检验用同一份资料相关系数的假设检验代替,手工计算时最为简便。统计结论1.方差
7、分析:应变量总变异的分解XP(X,Y)YY的总变异分解Y的总变异分解未引进回归时的总变异:(sumofsquaresoftotal)引进回归以后的变异(剩余):(sumofsquaresforresiduals)回归的贡献,回归平方和:(sumofsquaresforregression)Y的总变异分解体重举重Y的总变异分解ν总=n-1ν回=1ν剩余=n-2回归方程的方差分析2.回归系数的t检验直线回归中三种假设检验间的关系在直线回归中,回归系数的t检验与方差分析结果等价。tb=4.579=F1/2=20.971/2(二)总体回归系数的可信区间总体样本
8、根据t分布原理估计可信区间:总体β样本b总体回归系数的可信区间本例中已计算得s
此文档下载收益归作者所有