SAS学习系列26. Logistic回归

SAS学习系列26. Logistic回归

ID:40564918

大小:277.49 KB

页数:31页

时间:2019-08-04

SAS学习系列26. Logistic回归_第1页
SAS学习系列26. Logistic回归_第2页
SAS学习系列26. Logistic回归_第3页
SAS学习系列26. Logistic回归_第4页
SAS学习系列26. Logistic回归_第5页
资源描述:

《SAS学习系列26. Logistic回归》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、26.Logistic回归(一)Logistic回归一、原理二元或多元线性回归的因变量都是连续型变量,若因变量是分类变量(例如:患病与不患病;不重要、重要、非常重要),就需要用Logistic回归。Logistic回归分析可以从统计意义上估计出在其它自变量固定不变的情况下,每个自变量对因变量取某个值的概率的数值影响大小。Logistic回归模型有“条件”与“非条件”之分,前者适用于配对病例对照资料的分析,后者适用于队列研究或非配对的病例-对照研究成组资料的分析。对于二分类因变量,y=1表示事件发生;y=0表示事件不发生。事件发生的条件概率P{y=1

2、xi}与xi之间是非线性关系,通常是单

3、调的,即随着xi的增加/减少,P{y=1

4、xi}也增加/减少。Logistic函数F(x)=11+e-x,图形如下图所示:该函数值域在(0,1)之间,x趋于-∞时,F(x)趋于0;x趋于+∞时,F(x)趋于1.正好适合描述概率P{y=1

5、xi}.例如,某因素x导致患病与否:x在某一水平段内变化时,对患病概率的影响较大;而在x较低或较高时对患病概率影响都不大。记事件发生的条件概率P{y=1

6、xi}=pi,则pi=11+e-(α+βxi)=eα+βxi1+eα+βxi记事件不发生的条件概率为1-pi=11+eα+βxi则在条件xi下,事件发生概率与事件不发生概率之比为pi1-pi=eα+βx

7、i称为事件的发生比,简记为odds.对odds取自然对数得到lnpi1-pi=α+βxi上式左边(对数发生比)记为Logit(y),称为y的Logit变换。可见变换之后的Logit(y)就可以用线性回归,计算出回归系数α和β值。若分类因变量y与多个自变量xi有关,则变换后Logit(y)可由多元线性回归:或二、回归参数的解释1.三个名词发生比(odds)=事件发生频数事件未发生频数=pk1-pk例如,事件发生概率为0.6,不发生概率为0.4,则发生比为1.5(发生比>1,表示事件更可能发生)。发生比率(OR)=odds1odds2=p1/(1-p1)p2/(1-p2)=n11/n12n2

8、1/n22=n11n22n12n21即主对角线乘积/副对角线乘积,也称为交叉积比率,优势比。例如,说明:大于1(小于1)的发生比率,表明事件发生的可能性会提高(降低),或自变量对事件概率有正(负)的作用;发生比率为1表示变量对事件概率无作用。相对风险(RR)=p1p2=n11/(n11+n12)n21/(n21+n22)用来进行两组概率之间的比较。当p1=p2时,相对风险为1,表明两组在事件发生方面没有差别。2.连续型自变量回归参数的解释截距α:基准发生比的对数,即当Logistic回归模型中没有任何自变量时(除常量外,所有自变量都取0值)所产生的发生比。由于理解发生比,比理解对数发生比

9、更容易,故将Logistic回归模型改写为:odds=p1-p=eα+β1x1+…+βkxk=eα×eβ1x1×⋯×eβkxk若βk>0(βk<0),则eβk>1(eβk<1),即xk每增加一个单位值时发生比会相应增加(减少);若βk=0,则eβk=1,那么xk不论怎样变化发生比都不会变化。eβk反映了自变量xk增加一个单位时发生比所变化的倍数,即(xk+1)时的发生比与原发生比【(xk)时】之比。自变量xk每变化一个单位,发生比率的变化率为(eβk-1)×100%注:由于βk是自变量xk的偏系数估计,故eβk称为调整发生比率(AOR)的估计。实际中,往往更关心的不是自变量变化1个单位,

10、而是变化一段水平b-a个单位,例如年龄每增加5岁,此时调整发生比率为AOR=e(b-a)βk3.二分类自变量回归参数的解释二分类变量,例如性别,取值可以用0或1编码,也称为标志变量或虚拟变量。若xk为取值0或1的二分类变量,则有两式作差得可见βk就是在控制其它变量条件下,xk=1与xk=0的对数发生比的差;也即是发生比率的对数,即调整发生比率的估计可表示为AOR=eβk=注意,发生比率是p1/(1-p1)p2/(1-p2)=p1p21-p21-p1,而不是两者概率比p1p24.多分类变量的处理与回归参数的解释当分类自变量多于两个类别时,需要建立一组虚拟变量来代表类型的归属性质。若一个分类

11、变量包括m个类别,则可以产生m个相应的虚拟变量,但建模需要的虚拟变量的数目为m-1.省略的那个类别作为参照类。例如,年龄是有序变量,按年龄段分为四个类别:x<40,40≤x<50,50≤x<60,x≥60.设置3个虚拟变量Age1表示40≤x<50(属于该年龄段则Age1=1,否则Age1=0);Age2表示50≤x<60(属于该年龄段则Age2=1,否则Age2=0);Age3表示x≥60(属于该年龄段则Age3=1,否则Age3

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。