建立Logistic模型的SAS程序

建立Logistic模型的SAS程序

ID:37552188

大小:326.80 KB

页数:10页

时间:2019-05-25

建立Logistic模型的SAS程序_第1页
建立Logistic模型的SAS程序_第2页
建立Logistic模型的SAS程序_第3页
建立Logistic模型的SAS程序_第4页
建立Logistic模型的SAS程序_第5页
资源描述:

《建立Logistic模型的SAS程序》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、统计学专业教学实习报告题目:Project-2姓名:龚进容学号:20081004180指导老师:许小平2011年01月引言:某种疾病爆发,其患者总是或多或少都具有一些共同的特征,例如他们生活的自然环境,偏好的饮食习惯,所处的地理位置,社会环境,等等。研究这些特征,找出爆发这种疾病的影响因素,便于采取有效的措施预防和控制这种疾病的蔓延。这种研究无论是在医学上还是在人类发展史上都具有十分重要的意义。一、数据的描述本案例是对同一个城市的两个地区的可能爆发某种疾病的调查,它有196个样本观测值,每个观测值包括以下5个变量:被调查者的年龄(Age)、被调查者的社会地位(Soc-s)(其中

2、1表示处于上流社会,2表示中产阶级,3表示下层社会)、被调查者所在的地区(Sector)(其中1表示地区1,2表示地区2)、被调查者是否患有该种疾病(Disease)(其中0表示没有患这种疾病,1表示患有这种疾病)以及被调查者是否有储蓄存款(Save)(其中,0表示没有储蓄存款,1表示有储蓄存款)。对此数据的描述性统计结果如下表所示:表1“疾病爆发”数据的描述性统计分析根据此数据建立适当的模型,看这些变量对疾病的爆发是否有显著影响,影响程度如何。二、目的1.建立一个合适Logistic模型,看这些变量中哪些变量对疾病的爆发有显著影响,影响程度如何,从而可以对疾病的预防与控制提出

3、适当的建议,以便采取有效措施。2.在建模的过程中帮助我们复习Logistic回归分析,加深对的理论知识的学习。同时也熟悉对SAS统计软件的操作能力。3.加强我们的动手能力与实践能力,对应用统计有更深的认识。三、建立模型的基本理论对于被解释变量是定性数据的情况,通常是建立Logistic模型。以二分变量为例:YiProb(Yi)10P(Yi=1)=piP(Yi=0)=1-piP(Yi=k)=,k=0,1对于只有一个解释变量的情况,在Xi水平下得到的Yi=1的概率为:由此,得到的Logistic函数为:其中,表示Xi每增加一个单位,对数机会比率(ln-odds)就会相应增加个单位。

4、对于Logistic模型,可以用极大似然法估计参数、。使似然函数:达到最大时的b0、b1就是对应的、的估计值。由此可以得到Logistic函数以及Xi与Yi之间的关系。四、建模对于本案例,我们用三分之二的数据建立一个Logistic模型,再用余下的三分之一的数据进行预测。由于此数据并没有按顺序排列,所以我们可以选取前130个观测值来建模,用剩下的66个观测值进行预测。1.变量的选择首先,把所有的解释变量都选入模型,进行初步回归,回归的结果如下:表2初步回归的参数估计表对于被调查者的社会地位与是否有储蓄存款的参数估计的结果是不显著的,说明所有的变量不一定要全部选入模型。于是,我们

5、用AIC、SBC、向前选择、向后剔除、逐步回归、-2Ln(b)、ScoreChi-square等方法选择合适的变量加入模型。我们由SAS程序得到的SBC的结果如下表:表3最佳子集的SBC表BestSubsetSBCSectorSectorandAgeSectorAgeandSaveSectorAgeSaveandSocs149.828145.113147.997152.644从上表可以看出:通过SBC法则得到的最佳模型子集是:被调查者所在地区(Sector)和他们的年龄(Age)。为了更方便地建模,我们用Y表示被调查者是否患有该种疾病(Disease),用X1表示被调查者的年龄

6、(Age),用X2表示被调查者所在的地区(Sector)。由此可以得到的回归模型为:即:其中,、、都为未知参数;表示同一个地区时,年龄每增加一岁,可能爆发疾病的机会比率的对数(ln-odds)将会增加个单位;表示年龄相同时,处于地区2的居民会患有该种疾病的机会比率的对数(ln-odds)将会比处以地区1的高个单位。1.模型的诊断:对于Logistic模型,在我们已经选好模型后,主要的诊断是侦查它是否含有强影响点。侦查强影响点的方法有多种,如残差分析(包括Pearson残差、学生化残差及偏离度残差)、deltachi-square统计量、deltadeviance统计量以及库克距

7、离,等等。在这里,我们主要用库克距离来侦查强影响点。库克距离图如下图所示:图1前130个观测值的Cook-Distance图从图中我们可以看到有5个强影响点,分别是观测值14、48、60、65与83。1.模型的确定我们剔除上面侦查出来的强影响点后,由SAS程序得到的回归结果如下:表4模型收敛性检验表从上表可以看出此模型时收敛的,所以估计得到的回归系数有效。对模型的整体显著性进行检验的方法由很多,如似然比检验,得分检验及Wald检验。我们在这里采用得分检验,假设H0:β1=β2=0;H1:β1

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。