欢迎来到天天文库
浏览记录
ID:58809298
大小:1001.00 KB
页数:62页
时间:2020-10-01
《多元线性回归分析-医学统计教学课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、MultipleLinearRegressionAnalysis多元线性回归分析第二军医大学卫生统计学教研室张罗漫1讲课内容第一节多元线性回归(重点)第二节自变量选择方法(重点)第三节多元线性回归的应用及注意事项2第一节多元线性回归一、多元线性回归模型34多元回归:多个Y,多个X多重回归:一个Y,多个X5β0常数项βj偏回归系数(partialregressioncoefficient):在其它自变量保持不变时,Xj增加或减少一个单位时Y的平均变化量。e去除m个自变量对Y影响后的随机误差。6多元线性回归模型应用条
2、件:1.Y与X1,X2,,Xm之间具有线性关系;2.各个Yi间相互独立;3.e服从均数为0、方差为2的正态分布。7多元线性回归分析步骤:1.根据样本数据求得模型参数估计值:2.对回归方程及各Xj作假设检验。8二、多元线性回归方程的建立9YX1011X1X2Y12用最小二乘法解正规方程组,使残差平方和Q最小。1314用最小二乘法解正规方程组,使残差平方和Q最小。15161718三、多元线性回归方程的假设检验及评价19(一)回归方程的假设检验及评价1.方差分析法不全为0。2021222.决定系数R2血糖含量变异的
3、60%可由总胆固醇、甘油三酯、胰岛素和糖化血红蛋白的变异解释。233.复相关系数RY与多个自变量间的线性相关程度;Y与估计值间的Pearson相关系数r。24(二)各自变量的假设检验及评价1.偏回归平方和表示模型中含有其它m-1个自变量的条件下该自变量对Y的回归贡献。其值愈大说明相应的自变量愈重要。25260.6129+11.9627+20.0635+27.7939≠133.710727胰岛素(X3)与糖化血红蛋白(X4)与血糖(Y)有线性回归关系。282.t检验法29胰岛素(X3)与糖化血红蛋白(X4)与血糖(
4、Y)有线性回归关系。30标准化回归系数bj’的绝对值用来比较各个自变量Xj对Y的影响程度大小;绝对值越大影响越大。标准化回归方程的截距为0。3.标准化回归系数标准化回归系数与一般回归方程的回归系数的关系:标准化回归方程31对血糖影响大小的顺序依次为糖化血红蛋白(X4)、胰岛素(X3)、甘油三酯(X2)与总胆固醇(X1)。胰岛素为负向影响。32第二节自变量选择方法33一、全局选择法对自变量各种不同的组合所建立的回归方程进行比较,从全部组合中挑出一个“最优”的回归方程。34R2可用来评价回归方程优劣。随着自变量增加,
5、R2不断增大,对两个不同个数自变量回归方程比较,须考虑方程包含自变量个数影响,应对R2进行校正。所谓“最优”回归方程指最大者。1.校正决定系数选择法35P为方程中自变量个数。最优方程的Cp期望值是p+1。应选择Cp最接近P+1的回归方程为最优。2.选择法3637二、逐步选择法全局选择计算量很大:6个变量,计算26-1=63个方程;10个变量,计算210-1=1023个方程。按选入变量顺序不同分前进法、后退法与逐步回归法,共同特点是每一步只引入或剔除一个自变量Xj。38对Xj的取舍要进行F检验:计算进行到第l步时:
6、p:方程中自变量个数SS回:Xj的偏回归平方和SS残:残差平方和391.前进法(只选不剔)开始方程中无自变量,然后从方程外选取偏回归平方和最大的自变量作F检验以决定是否选入方程,直至无自变量可以引入方程为止。缺点:后续变量的引入可能使先前引入的变量变的不重要。Xj入选402.后退法(只剔不选)开始方程中包含全部自变量,然后从方程中选取偏回归平方和最小的自变量作F检验以决定是否从方程中剔除,直至无自变量可以从方程中剔除为止。缺点:当某些自变量高度相关时,可能得不出正确结果。Xj剔除413.逐步回归法(先选后剔,双向
7、筛选)开始方程中无自变量,从方程外选取偏回归平方和最大的自变量作F检验以决定是否选入方程;每引一个自变量进入方程后,从方程中选取偏回归平方和最小的自变量作F检验以决定是否从方程中剔除;直至方程外无自变量可引入,方程内无自变量可剔除为止。42Xj剔除内剔Xj入选外引α入值定的越小选取自变量标准越严,被选入方程内自变量数越少。α入值越大则反之。小样本:α入=0.05,α出=0.10。大样本:α入=0.10,α出=0.15。α入<α出,以免Xj上一步剔除后下一步又被选入43选X4前先建立4个直线回归方程;选X1前先建立
8、1个含3个自变量、3个含2个自变量的多元线性回归方程。444546474849第三节多元线性回归的应用及注意事项50一、多元线性回归的应用1.影响因素分析年龄(X1)饮食习惯(X2)吸烟状况(X3)工作紧张度(X4)家族史(X5)高血压(Y)bj的意义为在其它自变量保持不变时,Xj增加或减少一个单位时Y的平均变化量。故可排除混杂因素。512.估计与预测心脏表面积(Y)=
此文档下载收益归作者所有