统计学-logistic回归分析

统计学-logistic回归分析

ID:5649945

大小:315.00 KB

页数:59页

时间:2017-11-16

统计学-logistic回归分析_第1页
统计学-logistic回归分析_第2页
统计学-logistic回归分析_第3页
统计学-logistic回归分析_第4页
统计学-logistic回归分析_第5页
资源描述:

《统计学-logistic回归分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第十六章logistic回归分析logistic回归为概率型非线性回归模型,是研究分类观察结果(y)与一些影响因素(x)之间关系的一种多变量分析方法问题提出:医学研究中常研究某因素存在条件下某结果是否发生?以及之间的关系如何?因素(X)疾病结果(Y)x1,x2,x3…XK发生Y=1不发生Y=0例:暴露因素冠心病结果高血压史(x1):有或无有或无高血脂史(x2):有或无吸烟(x3):有或无研究问题可否用多元线性回归方法?1.多元线性回归方法要求Y的取值为计量的连续性随机变量。2.多元线性回归方程要求Y与X间关系为线性关系。3.多元线性回归结

2、果不能回答“发生与否”logistic回归方法补充多元线性回归的不足Logistic回归方法该法研究是当y取某值(如y=1)发生的概率(p)与某暴露因素(x)的关系。P(概率)的取值波动0~1范围。基本原理:用一组观察数据拟合Logistic模型,揭示若干个x与一个因变量取值的关系,反映y对x的依存关系。一、基本概念1.变量的取值logistic回归要求应变量(Y)取值为分类变量(两分类或多个分类)自变量(Xi)称为危险因素或暴露因素,可为连续变量、等级变量、分类变量。可有m个自变量X1,X2,…Xm2.两值因变量的logistic回归模

3、型方程一个自变量与Y关系的回归模型如:y:发生=1,未发生=0x有=1无=0,记为p(y=1/x)表示某暴露因素状态下,结果y=1的概率(P)模型。或模型描述了应变量p与x的关系P概率10.5Z值0123-1-2-3图16-1Logistic回归函数的几何图形Β为正值,x越大,结果y=1发生的可能性(p)越大。几个logistic回归模型方程logistic回归模型方程的线性表达对logistic回归模型的概率(p)做logit变换,截距(常数)回归系数Y~(-∞至+∞)线性关系方程如下:在有多个危险因素(Xi)时多个变量的logisti

4、c回归模型方程的线性表达:或2.模型中参数的意义Β0(常数项):暴露因素Xi=0时,个体发病概率与不发病概率之比的自然对数比值。的含义:某危险因素,暴露水平变化时,即Xi=1与Xi=0相比,发生某结果(如发病)优势比的对数值。P1(y=1/x=1)的概率P0(y=1/x=0)的概率危险因素Yx=1x=0发病=130(a)10(b)不发病=070(c)90(d)a+cb+d危险因素Yx=1x=0发病=1p1p0不发病=01-p11-p0有暴露因素人群中发病的比例反映了在其他变量固定后,X=1与x=0相比发生Y事件的对数优势比。回归系数β与O

5、RX与Y的关联β=0,OR=1,无关β>0,OR>1,有关,危险因素β<0,OR<1,有关,保护因子事件发生率很小,OR≈RR。多元回归模型的的概念二、Logistic回归模型Logistic回归的分类二分类多分类条件Logistic回归非条件Logistic回归Logit变换也称对数单位转换logitP=流行病学概念:设P表示暴露因素X时个体发病的概率,则发病的概率P与未发病的概率1-P之比为优势(odds),logitP就是odds的对数值。Logistic回归模型Logistic回归的logit模型Logistic回归模型三、参数估

6、计最大似然估计法(Maximumlikehoodestimate)似然函数:L=∏Pi对数似然函数:lnL=∑(lnP)=lnP1+lnP2+…+lnPn非线性迭代方法——Newton-Raphson法四、参数检验似然比检验(likehoodratiotest)通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为G(又称Deviance)。G=-2(lnLp-lnLk)样本量较大时,G近似服从自由度为待检验因素个数的2分布。比分检验(scoretest)以未包含某个或几个变量的模型为基础,保留模型

7、中参数的估计值,并假设新增加的参数为零,计算似然函数的一价偏导数(又称有效比分)及信息距阵,两者相乘便得比分检验的统计量S。样本量较大时,S近似服从自由度为待检验因素个数的2分布。Wald检验(waldtest)即广义的t检验,统计量为uu服从正态分布,即为标准正态离差。Logistic回归系数的区间估计上述三种方法中,似然比检验最可靠,比分检验一般与它相一致,但两者均要求较大的计算量;而Wald检验未考虑各因素间的综合作用,在因素间有共线性时结果不如其它两者可靠。五、回归系数的意义单纯从数学上讲,与多元线性回归分析中回归系数的解释并无

8、不同,亦即bi表示xi改变一个单位时,logitP的平均变化量。流行病学中的一些基本概念:相对危险度(relativerisk):RR=P1/P2比数Odds=P/(1-P)比数比OR=[P1

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。