欢迎来到天天文库
浏览记录
ID:49500558
大小:691.50 KB
页数:47页
时间:2020-02-06
《统计学课件--Ch15 多元线性回归分析.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第十五章多元线性回归分析(multiplelinearregression)讲述内容第一节多元线性回归第二节自变量选择方法第三节多元线性回归的应用及其注意事项目的:作出以多个自变量估计应变量的多元线性回归方程。资料:应变量为定量指标;自变量全部或大部分为定量指标,若有少数定性或等级指标需作转换。用途:解释和预报。意义:由于事物间的联系常常是多方面的,一个应变量的变化可能受到其它多个自变量的影响,如糖尿病人的血糖变化可能受胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂等多种生化指标的影响。第一节多元线性回归变量:应变量1个,自变量m个,共m+1个。样本含量:n数据格
2、式见表15-1回归模型一般形式:一、多元线性回归模型表15-1多元回归分析数据格式条件一般步骤建立回归方程(2)检验并评价回归方程及各自变量的作用大小二、多元线性回归方程的建立例15-127名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表15-2中,试建立血糖与其它几项指标关系的多元线性回归方程。表15-227名糖尿病人的血糖及有关变量的测量结果求偏导数原理最小二乘法三、假设检验及其评价1.方差分析法:(一)对回归方程表15-4例15-1的方差分析表表15-3多元线性回归方差分析表2.决定系数R2:3.复相关系数(二)对各自变
3、量指明方程中的每一个自变量对Y的影响(而方差分析和决定系数检验整体)。1.偏回归平方和表15-5对例15-1数据作回归分析的部分中间结果各自变量的偏回归平方和可以通过拟合包含不同自变量的回归方程计算得到,表15-5给出了例15-1数据分析的部分中间结果。结果结论2.t检验法是一种与偏回归平方和检验完全等价的一种方法。计算公式为结果结论3.标准化回归系数变量标准化是将原始数据减去相应变量的均数,然后再除以该变量的标准差。计算得到的回归方程称作标准化回归方程,相应的回归系数即为标准化回归系数。(没有)注意:一般回归系数有单位,用来解释各自变量对应变量的影响,表示在其
4、他自变量保持不变时,增加或减少一个单位时Y的平均变化量。不能用各来比较各对的影响大小。标准化回归系数无单位,用来比较各自变量对应变量的影响大小,越大,对的影响越大。结论第二节自变量选择方法目的:使得预报和(或)解释效果好一、全局择优法目的:预报效果好意义:对自变量各种不同的组合所建立的回归方程进行比较择优。选择方法:例15-2用全局择优法对例15-1数据的自变量进行选择。二、逐步选择法1.目的:解释效果好意义:选择对应变量作用显著的自变量选择方法:1.1.前进法,回归方程中的自变量从无到有、从少到多逐个引入回归方程。此法已基本淘汰。2.后退法,先将全部自变量选入
5、方程,然后逐步剔除无统计学意义的自变量。剔除自变量的方法是在方程中选一个偏回归平方和最小的自变量,作F检验决定它是否剔除,若无统计学意义则将其剔除,然后对剩余的自变量建立新的回归方程。重复这一过程,直至方程中所有的自变量都不能剔除为止。理论上最好,建议使用采用此法。3.逐步回归法,逐步回归法是在前述两种方法的基础上,进行双向筛选的一种方法。该方法本质上是前进法。表15-7逐步回归过程表15-8例15-3方差分析表“最优”回归方程为结果表明:血糖的变化与甘油三脂、胰岛素和糖化血红蛋白有线性回归关系,其中与胰岛素负相关。由标准化回归系数看出,糖化血红蛋白对空腹血糖的
6、影响最大。表15-9例15-3的回归系数的估计及检验结果第三节多元线性回归的应用及其注意事项一、多元线性回归的应用二、多元线性回归应用的注意事项1.指标的数量化分2类,可用一个(0,1)变量。如性别分k类,k-1个(0,1)变量,如血型。数据格式回归方程建立回归方程b1:相当A型相对于O型的差别b2:相当B型相对于O型的差别b3:相当AB型相对于O型的差别(3)等级定量。一般是将等级从弱到强转换为(或)如文化程度分为小学、中学、大学、大学以上四个等级。Y为经济收入。解释:b(b1)反映X(X1)增加1个单位,增加b个单位(如:500元)。表示中学文化较小学收入多
7、500,大学较中学多500,余类推。b1,b2,b3分别反映中学、大学、大学以上相对于小学文化程度者经济收入差别的大小也可将K个等级转换为K-1个(0,1)变量2.样本含量:n=(5~10)m。3.关于逐步回归:对逐步回归得到的结果不要盲目的信任,所谓的“最优”回归方程并不一定是最好的,没有选入方程的变量也未必没有统计学意义。例如,例15-3中若将选入标准和剔除标准定为和,选入的变量是,而不是,结果发生了改变。不同回归方程适应于不同用途,依专业知识定。4.多重共线性即指一些自变量之间存在较强的线性关系。如高血压与年龄、吸烟年限、饮白酒年限等,这些自变量通常是高度
8、相关的,有可能使通过最小
此文档下载收益归作者所有