SAS学习系列26. Logistic回归

ID：40564918

大小：277.49 KB

页数：31页

时间：2019-08-04

资源描述：

《SAS学习系列26. Logistic回归》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、26.Logistic回归（一）Logistic回归一、原理二元或多元线性回归的因变量都是连续型变量，若因变量是分类变量（例如：患病与不患病；不重要、重要、非常重要），就需要用Logistic回归。Logistic回归分析可以从统计意义上估计出在其它自变量固定不变的情况下，每个自变量对因变量取某个值的概率的数值影响大小。Logistic回归模型有“条件”与“非条件”之分，前者适用于配对病例对照资料的分析，后者适用于队列研究或非配对的病例-对照研究成组资料的分析。对于二分类因变量，y=1表示事件发生；y=0表示事件不发生。事件发生的条件概率P{y=1

2、xi}与xi之间是非线性关系，通常是单

3、调的，即随着xi的增加/减少，P{y=1

4、xi}也增加/减少。Logistic函数F(x)=11+e-x，图形如下图所示：该函数值域在(0,1)之间，x趋于-∞时，F(x)趋于0；x趋于+∞时，F(x)趋于1.正好适合描述概率P{y=1

5、xi}.例如，某因素x导致患病与否：x在某一水平段内变化时，对患病概率的影响较大；而在x较低或较高时对患病概率影响都不大。记事件发生的条件概率P{y=1

6、xi}=pi，则pi=11+e-(α+βxi)=eα+βxi1+eα+βxi记事件不发生的条件概率为1-pi=11+eα+βxi则在条件xi下，事件发生概率与事件不发生概率之比为pi1-pi=eα+βx

7、i称为事件的发生比，简记为odds.对odds取自然对数得到lnpi1-pi=α+βxi上式左边（对数发生比）记为Logit(y),称为y的Logit变换。可见变换之后的Logit(y)就可以用线性回归，计算出回归系数α和β值。若分类因变量y与多个自变量xi有关，则变换后Logit(y)可由多元线性回归：或二、回归参数的解释1.三个名词发生比（odds）=事件发生频数事件未发生频数=pk1-pk例如，事件发生概率为0.6，不发生概率为0.4，则发生比为1.5（发生比>1，表示事件更可能发生）。发生比率（OR）=odds1odds2=p1/(1-p1)p2/(1-p2)=n11/n12n2

8、1/n22=n11n22n12n21即主对角线乘积/副对角线乘积，也称为交叉积比率，优势比。例如，说明：大于1（小于1）的发生比率，表明事件发生的可能性会提高（降低），或自变量对事件概率有正（负）的作用；发生比率为1表示变量对事件概率无作用。相对风险（RR）=p1p2=n11/(n11+n12)n21/(n21+n22)用来进行两组概率之间的比较。当p1=p2时，相对风险为1，表明两组在事件发生方面没有差别。2.连续型自变量回归参数的解释截距α：基准发生比的对数，即当Logistic回归模型中没有任何自变量时（除常量外，所有自变量都取0值）所产生的发生比。由于理解发生比，比理解对数发生比

9、更容易，故将Logistic回归模型改写为：odds=p1-p=eα+β1x1+…+βkxk=eα×eβ1x1×⋯×eβkxk若βk>0（βk<0），则eβk>1（eβk<1）,即xk每增加一个单位值时发生比会相应增加（减少）；若βk=0，则eβk=1,那么xk不论怎样变化发生比都不会变化。eβk反映了自变量xk增加一个单位时发生比所变化的倍数，即(xk+1)时的发生比与原发生比【(xk)时】之比。自变量xk每变化一个单位，发生比率的变化率为(eβk-1)×100%注：由于βk是自变量xk的偏系数估计，故eβk称为调整发生比率（AOR）的估计。实际中，往往更关心的不是自变量变化1个单位，

10、而是变化一段水平b-a个单位，例如年龄每增加5岁，此时调整发生比率为AOR=e(b-a)βk3.二分类自变量回归参数的解释二分类变量，例如性别，取值可以用0或1编码，也称为标志变量或虚拟变量。若xk为取值0或1的二分类变量，则有两式作差得可见βk就是在控制其它变量条件下，xk=1与xk=0的对数发生比的差；也即是发生比率的对数，即调整发生比率的估计可表示为AOR=eβk=注意，发生比率是p1/(1-p1)p2/(1-p2)=p1p21-p21-p1，而不是两者概率比p1p24.多分类变量的处理与回归参数的解释当分类自变量多于两个类别时，需要建立一组虚拟变量来代表类型的归属性质。若一个分类

11、变量包括m个类别，则可以产生m个相应的虚拟变量，但建模需要的虚拟变量的数目为m-1.省略的那个类别作为参照类。例如，年龄是有序变量，按年龄段分为四个类别：x<40，40≤x<50，50≤x<60,x≥60.设置3个虚拟变量Age1表示40≤x<50（属于该年龄段则Age1=1，否则Age1=0）；Age2表示50≤x<60（属于该年龄段则Age2=1，否则Age2=0）；Age3表示x≥60（属于该年龄段则Age3=1，否则Age3

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 31



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

SAS学习系列26. Logistic回归

SAS学习系列26. Logistic回归

相关文章

相关标签