【8A文】Logistic回归及其分析攻略.pptx

【8A文】Logistic回归及其分析攻略.pptx

ID:32508109

大小:1.37 MB

页数:92页

时间:2019-02-09

【8A文】Logistic回归及其分析攻略.pptx_第1页
【8A文】Logistic回归及其分析攻略.pptx_第2页
【8A文】Logistic回归及其分析攻略.pptx_第3页
【8A文】Logistic回归及其分析攻略.pptx_第4页
【8A文】Logistic回归及其分析攻略.pptx_第5页
资源描述:

《【8A文】Logistic回归及其分析攻略.pptx》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、Logistic回归分析攻略冯国双什么是logistic回归常见的几种回归模型:因变量为连续资料——线性回归因变量为分类资料——Logistic回归因变量为计数资料——Poisson回归因变量为生存资料——Cox回归…………什么是Logistic回归线性回归模型:Logit变换:p表示事件发生的概率,1-p为事件不发生的概率当p=1时,logit(p)=+∞,当p=0.5时,logit(p)=0,当p=0时,logit(p)=-∞故logit(p)的取值范围是(-∞,+∞)什么是Logistic回归Logit变换:式中等号右边的

2、分数[p/(1-p)]是流行病学常用的描述疾病发生强度的统计指标,称为优势(odds)。当疾病发生的概率p与不发生的概率q相等皆为0.5时,odds=1,否则odds大于或小于1。什么是Logistic回归Logistic回归模型:βi表示自变量xi改变一个单位时,logit(p)的改变量。其它形式:什么是Logistic回归Logistic回归的主要用途:(1)寻找某现象发生的影响因素。(2)校正混杂因素。(3)确定不同因素对疾病发生影响的相对重要性。(4)预测。结局y暴露因素x结局y暴露因素x10101ab1p1p20cd0

3、1-p11-p2合计a+cb+d合计11logistic回归参数估计logistic回归参数估计最大似然估计(maximumlikelihoodestimation,MLE)最大似然法就是选取使总体参数落在样本观察值领域里的概率达到最大时的值作为参数的估计值。故上述问题的最大似然函数是:两边取对数,变为logistic回归参数估计对Q分别求关于β0和β1的一阶偏导数,并令一阶偏导数等于0,得到两个关于β0和β1的二元一次方程,解该方程组,便得到回归系数β0和β1的最大似然估计值:logistic回归参数估计暴露人群的优势为p1/

4、(1-p1)非暴露人群的优势为p2/(1-p2)二者之比,称为优势比(oddsratio,OR)对OR求对数,得logistic回归分析思路1、分析前准备——是否可以用logistic回归:研究目的:寻找某现象的危险因素吗?预测?多因素分析?因变量类型:是分类变量吗?二分类或多分类均可logistic回归分析思路2、分析前准备——自变量形式审查:(1)暴露因素(自变量)x是二分类变量时:直接纳入模型通常赋值为:暴露时x=1,非暴露时x=0此时logistic回归模型中的系数是1(暴露)与0(非暴露)相比的优势比的对数值。此时eβ

5、表示1(暴露)与0(非暴露)相比,事件发生的危险,即OR值logistic回归分析思路(2)暴露因素(自变量)x是多分类变量时:常用1,2,3,…,k分别表示k个不同的类别。进行logistic回归分析时,将变量转换为k-1个虚拟变量或哑变量(dummyvariable),每个虚拟变量都是一个二分类变量,通常用0和1表示。每个虚拟变量各有一个回归系数,其意义表示1与0相比的优势比的对数值logistic回归分析思路例如,血型x为A、B、AB、O四个值,以1、2、3、4来表示,该数字只是一个代码,并非是一个等级变量。在logist

6、ic回归分析时,需将变量x转换为3个虚拟变量。若以A型血为参照组,3个虚拟变量分别为x1、x2、x3。在分析时,将3个虚拟变量x1、x2、x3同时纳入logistic回归模型,可得3个回归系数β1、β2、β3,其中,β1为B型血与A型血相比患白血病的优势比的对数值;β2为AB型血与A型血相比患白血病的优势比的对数值;β3为O型血与A型血相比患白血病的优势比的对数值。logistic回归分析思路为什么多分类自变量要用虚拟变量的形式?logistic回归分析思路(3)暴露因素(自变量)x是连续变量时,最好将其转化为分类变量为什么?l

7、ogistic回归分析思路分析年龄与高血压发生与否的关系:age2是原始的年龄数据,age1是年龄分组数据(分为<50、50-59、>=60三个年龄组)Hypertensionage1age0140014001400141014101410142014201421143logistic回归分析思路直接用连续变量age分析,结果如下:提示年龄无统计学意义logistic回归分析思路用分类变量age1分析,结果如下:年龄50-59与<50相比,有统计学意义。logistic回归分析思路仔细看一下二者关系,可以发现,年龄和高血压发生是

8、二次项关系,中间高,两头低,如果直接纳入模型,作为线性关系,便无统计学意义logistic回归分析思路3、正式分析——单因素分析和多因素分析:必须进行单因素分析吗?并无一致结论。但一般建议可通过大致了解各自变量的作用,同时探索各自变量与因变量的关系多因素分析策略

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。