欢迎来到天天文库
浏览记录
ID:42011690
大小:627.00 KB
页数:44页
时间:2019-09-06
《同济医学院SPSS课件-SPSS Logistic回归》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、Logistic回归第10章非参数检验SPSS应用华中科技大学公共卫生学院流行病学与卫生统计学系蒋红卫jhwccc@21cn.com内容基本概念基本步骤基本操作基本结果解释数据分析的背景计量资料单因素统计分析对于两组计量资料的比较,一般采用t检验或秩和检验。对于两个变量的相关分析采用Pearson相关分析或Spearman相关分析考虑多因素的影响,对于应变量(反应变量)为计量资料,一般可以考虑应用多重线性回归模型进行多因素分析。数据分析的背景单因素的分类资料统计分析,一般采用Pearson2进行统计检验,用OddsRatio及其95%可信区间评价
2、关联程度。考虑多因素的影响,对于反应变量为分类变量时,用线性回归模型P=a+bx就不合适了,应选用Logistic回归模型进行统计分析。Logistic回归模型按研究设计分类非配对设计:非条件Logistic回归模型配对病例对照:条件Logistic回归模型按反应变量分类二分类Logistic回归模型(常用)多分类无序Logistic回归模型多分类有序Logistic回归模型基础知识通过下例引入和复习相关概念例如:研究患某疾病与饮酒的关联性患病率P1=a/m1P2=b/m2基础知识Odds(优势)P越大,则Odds越大;P越小,则Odds越小并且0
3、比较OR=1?OR>1?OR<1?(二分类)Logistic回归模型因为04、c回归分析时,对回归系数的解释都是指在其它所有自变量固定的情况下的优势比。存在因素间交互作用时,Logistic回归系数的解释变得更为复杂,应特别小心。回归系数的意义适用条件反应变量为二分类变量或某事件的发生率;自变量与logit(P)之间为线性关系;残差合计为0,且服从二项分布;各观测间相互独立。logistic回归模型应该使用最大似然法来解决方程的估计和检验问题,不应当使用以前的最小二乘法进行参数估计。研究急性心肌梗塞(AMI)患病与饮酒的关系,采用横断面调查。例1SPSS基本操作SPSS基本操作SPSS基本操作SPSS基本操作SPSS基本操作5、哑变量设置哑变量设置为了便于解释,对二项分类变量一般按0、1编码,一般以0表示阴性或较轻情况,而1表示阳性或较严重情况。如果对二项分类变量按+1与-1编码,那么结果容易造成错误的解释。分类变量必须转化。如地区对血压的影响。等级资料,当等级之间量度不一时必须转化,如正常,超重和肥胖连续资料不宜直接进入方程时,转化为等级资料或分类资料SPSS哑变量设置IndicatorSimpleDifferenceRepeated参照分类为0,其余为1,即各分类与参照分类比较除第一类分类外,各分类与其之前平均分类效应比较SPSS哑变量设置Helmert与Differ6、ence相反,各水平与其之后水平的平均效应比较Deviation:除参照分类外,各水平与分类的总效应比较Polynomial正交多项式设置自动设置哑变量是有缺点的等级变量不合适哑变量设置应注意的问题参照水平最好要有实际意义,不推荐使用其他作为参照;参照水平组要有一定的频数作保证,应不少于30或50例;对有序自变量的分析:从专业出发确定;分别以哑变量和连续性变量的方式引入模型进行比较后确定。SPSS基本操作SPSS基本操作模型拟合优度指标,P值越大越好迭代过程参数估计的相关矩阵,均<0.80,提示各协变量间相互独立校正混杂作用实例2:上例没有考虑吸烟7、情况,故将吸烟作为分层加入,资料如下:SPSS基本操作同例1逐步回归分析在多因素统计分析中,多个自变量之间存在相关性,往往相互影响,研究者希望寻找主要影响应变量Y的因素。理论上,只要把各种因素组合都试一遍,寻找变量个数最多,每个变量均有统计学意义,并且模型拟合程度最好的模型,这种模型称为最佳预测模型,这种方法称为寻找最优子集,当变量较多时很难实现。逐步回归为了比较方便地找到最佳预测回归模型,一般采用逐步回归的分析策略建立拟最佳预测回归模型。逐步回归采用逐个增加最佳变量的方式或逐个减少最差的变量方式找到最佳或拟最佳回归模型。逐步Logistic回归无8、论是条件还是非条件Logistic回归,在多变量分析时均可以采用逐步回归方法,实现的方法是:所有变量一次全部进入方程。向前
4、c回归分析时,对回归系数的解释都是指在其它所有自变量固定的情况下的优势比。存在因素间交互作用时,Logistic回归系数的解释变得更为复杂,应特别小心。回归系数的意义适用条件反应变量为二分类变量或某事件的发生率;自变量与logit(P)之间为线性关系;残差合计为0,且服从二项分布;各观测间相互独立。logistic回归模型应该使用最大似然法来解决方程的估计和检验问题,不应当使用以前的最小二乘法进行参数估计。研究急性心肌梗塞(AMI)患病与饮酒的关系,采用横断面调查。例1SPSS基本操作SPSS基本操作SPSS基本操作SPSS基本操作SPSS基本操作
5、哑变量设置哑变量设置为了便于解释,对二项分类变量一般按0、1编码,一般以0表示阴性或较轻情况,而1表示阳性或较严重情况。如果对二项分类变量按+1与-1编码,那么结果容易造成错误的解释。分类变量必须转化。如地区对血压的影响。等级资料,当等级之间量度不一时必须转化,如正常,超重和肥胖连续资料不宜直接进入方程时,转化为等级资料或分类资料SPSS哑变量设置IndicatorSimpleDifferenceRepeated参照分类为0,其余为1,即各分类与参照分类比较除第一类分类外,各分类与其之前平均分类效应比较SPSS哑变量设置Helmert与Differ
6、ence相反,各水平与其之后水平的平均效应比较Deviation:除参照分类外,各水平与分类的总效应比较Polynomial正交多项式设置自动设置哑变量是有缺点的等级变量不合适哑变量设置应注意的问题参照水平最好要有实际意义,不推荐使用其他作为参照;参照水平组要有一定的频数作保证,应不少于30或50例;对有序自变量的分析:从专业出发确定;分别以哑变量和连续性变量的方式引入模型进行比较后确定。SPSS基本操作SPSS基本操作模型拟合优度指标,P值越大越好迭代过程参数估计的相关矩阵,均<0.80,提示各协变量间相互独立校正混杂作用实例2:上例没有考虑吸烟
7、情况,故将吸烟作为分层加入,资料如下:SPSS基本操作同例1逐步回归分析在多因素统计分析中,多个自变量之间存在相关性,往往相互影响,研究者希望寻找主要影响应变量Y的因素。理论上,只要把各种因素组合都试一遍,寻找变量个数最多,每个变量均有统计学意义,并且模型拟合程度最好的模型,这种模型称为最佳预测模型,这种方法称为寻找最优子集,当变量较多时很难实现。逐步回归为了比较方便地找到最佳预测回归模型,一般采用逐步回归的分析策略建立拟最佳预测回归模型。逐步回归采用逐个增加最佳变量的方式或逐个减少最差的变量方式找到最佳或拟最佳回归模型。逐步Logistic回归无
8、论是条件还是非条件Logistic回归,在多变量分析时均可以采用逐步回归方法,实现的方法是:所有变量一次全部进入方程。向前
此文档下载收益归作者所有