资源描述:
《缺失数据处理的期望 -极大化算法与 马尔可夫蒙特卡洛方法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、心理科学进展2011,Vol.19,No.7,1083–1090AdvancesinPsychologicalScienceDOI:10.3724/SP.J.1042.2011.01083缺失数据处理的期望-极大化算法与马尔可夫蒙特卡洛方法沐守宽周伟(漳州师范学院教育系,福建漳州363000)摘要缺失数据普遍存在于心理学研究中,影响着统计推断。极大似然估计(MLE)与基于贝叶斯的多重借补(MI)是处理缺失数据的两类重要方法。期望-极大化算法(EM)是寻求MLE的一种强有力的方法。马尔可夫蒙特卡洛方法(MCMC)可以相对简易地实
2、现MI,而且可以适用于复杂情况下的缺失数据处理。结合研究的需要讨论了实现这两类方法的适用软件。关键词缺失数据;期望-极大化算法;马尔可夫蒙特卡洛方法;极大似然估计;多重借补分类号B841.21引言借补法(imputation),也译为替代、插补等,用某种规则或者方法来填补缺失值,得到完全数据集,心理学研究常需对大量资料进行统计处理,经然后使用标准统计方法处理这些完全数据。相关典的统计方法与理论的建立大都是以完全数据为基经典内容请参见文献(Acock,2005;Allison,2001;础的。然而在实践中,通过观察、实验和测验等
3、方曾莉,辛涛,张淑梅,2009;Huisman,2000;法收集数据时,各类原因使得某些数据无法获得的Schafer&Olsen,1998;杨军,赵宁,丁文兴,2008;现象时有发生。此时,标准的统计方法已经不能够金勇进,2001a,2001b,2001c)。另一类方法是缺直接应用到这些缺失数据(MissingData)的统计分失处理与模型相结合的方法(Little&Rubin,2002析。而且,不同的缺失数据处理方法对处理结果产2004;黄芳铭,2005)。基于似然函数的极大似然估生不同的影响(Jones,1996;Rub
4、in,1987)。因此,研究计(MaximumLikelihoodEstimator,MLE)、多重借需要合理地分析缺失数据,更加充分地利用已有资补(multipleimputation,MI)这两种方法是实践中料,进而获得科学的信息与推断。常用的方法。其中,期望-极大化(Expectation-传统的方法包括直接排除那些含缺失数据个Maximizationalgorithm,EM)算法特别适用于缺失体等方法,这样的处理将损失不必要的信息、带来数据问题,也是进行极大似然估计的一种有效方有偏样本,导致有偏估计、甚至无效推断(Ca
5、rter,法;马尔可夫蒙特卡洛方法(MarkovChainMonte2006)。传统的处理方法遭遇严重的挑战,同时不Carloalgorithm,MCMC)是实现MI(Yang&同的处理方法对估计结果影响会很大(Ludlow&Rockville,2001)一种方法,也是应用到项目反应O'Leary,1999);不适当的处理也会带来有偏的参理论中的典型方法(曾莉等,2009)。计算机模拟研数估计(Jones,1996)、方差估计与统计检验等,甚究中,不同缺失比率下EM算法的参数估计与完至影响数据分析效用。显然,选择适当处理方法全
6、数据时的参数估计比较,EM算法可以得到较好是非常重要的。的结果(张秀伟,张香云,2008);与其它的缺失数缺失数据的处理主要分为两大类。第一类是据处理方法相比较,不少研究的结果显示MCMC方法获得结果更合理。收稿日期:2010-10-292缺失数据机制与程度通讯作者:沐守宽,E-mail:msk1967@163.com周伟,E-mail:Chchw2010@gmail.com缺失数据与诸多变量密切相关,相关的处理方10831084心理科学进展第19卷法性质也在很大程度上依赖着缺失数据机制,尤MCAR)。数据缺失不依赖于任何其它
7、变量,缺失其在数据缺失是不可忽视性的机制的时候。大部数据是来自总体的一个简单随机抽样。MCAR是分的缺失数据处理方法建立在可忽视的缺失机最严格的假定。如果条件概率P(Ymis
8、Y)=P(Ymis
9、制基础之上,大部分的研究也是在随机缺失机制Yobs)成立,则称为随机缺失(missingatrandom,的假设下进行的。若从样本所得推论与从总体所MAR)。缺失数据依赖于其它变量被观测到的数据得推论等同,则数据缺失性可忽视;若由研究设Yobs,但不依赖于其它变量缺失的部分Ymis。在许计、工具等问题导致数据不完全,则数据缺失性多实际
10、问题中,MAR这一缺失机制的假设既可以是不可忽视的。得到恰当的解释,又能够尽量多地为统计方法提2.1缺失数据机制供方便。如果数据缺失与其它变量观测数据Yobs、数据缺失是否依赖于数据集中的变量;如果缺失的部分Ymis之间存在着依赖关系,则称为非依赖数据集中的变量,那么数据缺失