欢迎来到天天文库
浏览记录
ID:43841003
大小:126.29 KB
页数:7页
时间:2019-10-15
《SAS Logistic回归:一个完整例子》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、SASLogistic回归:代码及输出报告详解这篇将作为五一后一个讲稿的阅读材料之一,先整出来就搁这。如果没有耐心读下去,你可以立即转到以下的参考资料,该篇所有的知识都来自它们:1.Cody,R.F.andSmith,J.K.AppliedStatisticsandtheSASProgrammingLanguage,4thed..NJ:Prentice-Hall,1997.这书已经出第五版了,北大图书馆只有这第四版。非常容易上手的一本书,前半部分用input和datalines让读者专心做统计,后半部分从导入导出数据开始阐述
2、SAS的通用编程语言。这本书用的是SAS8.这里我们只关注它第九章Multiple-RegressionAnalysis的最后LogisticRegression部分。我这篇的例子即来于此,有简化;2.SASOnlineDocV8,或者SASOnlineDocV9,是要花功夫熟悉它们的结构了。以前我四处下载了数G的电子书,现在才发觉还是它们好使。体例上V8和V9一样,你找到SAS/STAT–>SAS/STATUser’sGuide–>TheLOGISTICProcedure,就可以跟着学习了,文字都非常简明。Logistic
3、回归处理因变量是分类型变量如“0、1”的情形。一下就假设你至少对它模模糊糊有些印象,比如说我们用p表示正例(如输出变量为“1”)的概率,那么p/(1-p)就被称作oddsratio,对p做logit变换记做logit(p),它等于log(p/(1-p),我们回归方程的形式就如logit(p)=log(p/(1-p)=a+bx,你可以把它理解成向量形式。假设我们有一个数据,45个观测值,四个变量,包括:1.age(年龄,数值型);2.vision(视力状况,分类型,1表示好,0表示有问题);3.drive(驾车教育,分类型,1
4、表示参加过驾车教育,0表示没有)和4.一个分类型输出变量accident(去年是否出过事故,1表示出过事故,0表示没有)。我们的目的就是要考察前三个变量与发生事故的关系。为了保持程序的可读性,以下我就直接在代码中一行一行敲入数据,在实际工作中,超过20个观测值的数据就要写程序导入了。另外,/**/之间的语句都是注释,SAS运行时会把它们忽略掉:—————————————————————————————————————————-/*前三行,首先data步,建立一个叫logistic的临时数据集,它在work临时文件夹里。一般推
5、荐用记事本把程序保存起来;input语句表示一下是几个变量;从datalines开始就一行一行输入数据,每个单独的数据之间用空格隔开,每个观测值各占一行。需要注意的是,datalines和下面的数据之间不要有空行,否则SAS会认为出现了一个缺失值。数据输入完毕,以分号结束,这个分号一定要另起一行。*/datalogistic;inputaccidentagevisiondrive;datalines;117111440014810155001751103501042110570002801020010381004501047
6、110520005501168101181016800148111170017011172101350111910162100391104011055000680102510017000450104401067000550116110119101690012311119001721117410131011161016110;/*以下两行我们不妨称作过程步甲。过程步以proc开头,加上要实现功能的名字,这里是logistics,接下来是要引用的数据。值得注意的是那个desending选项。SAS的Logistic回归方程log
7、(odds)默认的形式是处理那个变量值比较小的,这里是accident=0,但我们要考察的是发生事故accident=1的情况,加上desending降序排列,它就处理accident=1的log(odds)了。再model引导的就是回归方程的形式,写成“因变量=自变量1自变量2自变量3”的样子。最后以run结束语句,与proc对应。*/proclogisticdata=logisticdescending;modelaccident=agevisiondrive;run;/*运行以上程序,就要跑出一大堆结果了。但在处理多元
8、回归时,语句很难得会只像过程步甲一样简洁。以下过程步乙只加入一个变量选择选项forward。SAS在处理自变量选择上采用了5个技术,这里只简单提一下3个常用的技术。1.forward——前向选择,变量一个个进入回归方程,按照一些卡方标准,最显著的也就是最好的变量最先进入,然后就是次最好的,
此文档下载收益归作者所有