欢迎来到天天文库
浏览记录
ID:36779646
大小:309.78 KB
页数:4页
时间:2019-05-15
《运用SAS对不完整数据集进行多重填补》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、运用SAS对不完整数据集进行多重填补SAS9中的多重填补及其统计分析过程(一)第二军医大学卫生统计学教研室(200433)曹阳张罗漫在所有的实验研究和调查研究领域,数据缺法结合了这m个数据集中的变异性。在对每一失是一个普遍存在的问题。缺失数据会增加分析个填补数据集用SAS/STAT中的标准过程进行任务的复杂性、造成结果偏倚、降低统计工作的分析之后,就可以用MIANALYZE过程进行综效率。尤其是在完全观测与不完全观测之间存在合统计推断。MI过程中提供了3种方法对缺失系统差异的情况下,运用常规统计分析方法对不值进行填补。
2、对于单调缺失(monotonemissing)完整数据集所做出的结果,不能代表整体。在近模式,可使用基于多元正态性假设的参数回归方二、三十年来,多重填补(multipleimputation,MI)法或采用趋势得分(propensityscore)的非参数方方法被认为是解决这一问题的首选方法,该方法法;对于任意缺失(arbitrarymissing)模式,可使由DonaldB.Rubin在20世纪70年代首先提出用基于多元正态性假设的马尔科夫链蒙特卡罗[1,2][4.5]。与通常用平均值代替缺失值或其它简单填(Mark
3、ovchainMonteCarlo,MCMC)方法。补(simpleimputation)方法的不同之处在于,MI在SAS8中,MI和MIANALYZE过程还方法对每一个缺失值用一套可能的值进行填补,只是两个实验过程,所以在SAS的用户参考手以反映缺失值的不确定性,从而产生若干个完整册中并没有对其进行介绍。在SAS9中,MI和数据集;然后,用针对完整数据集的统计方法对MIANALYZE已经成为STAT模块中的两个正每一个填补数据集分别进行统计分析,把得到的式过程。和SAS8相比,SAS9的MI过程中,结果进行综合,进而
4、产生最终的统计推断(图1)。对MCMC和MONOTONE语句新增加了这种方法能够反映出由于数据缺失造成的统计REGPMM选择项,可以用预测均数匹配[3]推断结果的不确定性。随着计算方法的不断成(predictivemeanmatching)法把一个缺失值用接熟和相应统计软件(如Amelia、Solas、Norm、近预测值的数值进行填补。此外,还增加了Iveware和Emcov等)的出现,该方法已被越来CLASS语句,对分类变量进行定义。在越多地应用于生物医学、行为科学和社会科学领MONOTONE语句中,新增加了LOGI
5、STIC和域。DISCRIM选择项,分别用Logistic和判别方法填补缺失值。DATA=选择项的功能也得到了增填补分析综合●●●◎●强,在输出数据集时可以同时包括每一个观测的●●◎●●2●◎●◎●θˆ,σˆ11……………●●●●◎参数估计值和相应的标准误。SAS9的填补数据集1●●●◎●MIANALYZE过程中,新增加了TEST和CLASS●●●○●●●◎●●●◎●◎●θˆ,σˆ2[6]●●○●●………………………222语句。下面,对这两个过程分别加以介绍。●○●○●●●●●◎…………θˆ,σˆ……………填补数据集2
6、●●●●○……MI过程简介●●●◎●●●◎●●2●◎●◎●θˆ,σˆMI过程的语句构成及语法如下:……………mm●●●●◎填补数据集mPROCMI<选择项>;不完整数据集填补数据集分析结果最终结果BY变量名或变量列表;●观察值○缺失值◎填补值CLASS变量名或变量名列表;图1多重填补步骤及其统计推断原理EM<选择项>;在SAS/STAT软件中,从8.0版本中开始引FREQ变量名;入对缺失数据进行多重填补及其统计分析的MIMCMC<选择项>;和MIANALYZE两个过程,并在8.1和8.2版本MONOTONE<选择项>;
7、中对这两个过程的功能做了进一步修订。MI过TRANSFORM变换方法(变量名或变量列程用于对含有p个变量的不完全数据集产生m表选择项>)<…变换方法(变量名或变量列表选择个填补数据集(m值由用户定义)。它所使用的方项>)>;VAR变量名或变量列表;1BY语句指明了分组变量,MI过程根据这一一一对应。缺失值“.”表示对应的变量的填补值变量的将数据集分成若干组分别进行多重填补。没有限制。缺省状态下是“MAXIMUM=.”,即CLASS语句是SAS9中新增添的语句,它对所有变量的填补值没有上限限制。定义了VAR语句中
8、的哪一个变量是分类变量,MAXIMUM=选择项与MINIMUM=、ROUND=这一变量可以是数字型也可以是字符型。选择项相关联,这些选择项可以让填补值和观察EM语句是在假设数据集服从多元正态分布到的变量值更趋于一致。只有在使用单调回归方的基础上,根据EM(expectationand法或没有PMM选择项的MCMC方法时才能使max
此文档下载收益归作者所有