缺失数据的多重插补方法

缺失数据的多重插补方法

ID:43494806

大小:178.15 KB

页数:4页

时间:2019-10-08

缺失数据的多重插补方法_第1页
缺失数据的多重插补方法_第2页
缺失数据的多重插补方法_第3页
缺失数据的多重插补方法_第4页
资源描述:

《缺失数据的多重插补方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、4统计教育2006年第12期缺失数据的多重插补方法文/乔丽华傅德印摘要:插补法是对缺失数据的调整方法,多重插补迄今为止,学术界已提出并发展了30多种插补方弥补了单一插补的缺陷,采用一系列可能的数据集来填法。在抽样调查中应用的主要是单一插补和多重插补。充每一个缺失数据值,反映了缺失数据的不确定性。本单一插补指对每个缺失值,从其预测分布中抽取一文介绍了多重插补程序的三种数据插补方法:回归预测个值填充缺失值后,使用标准的完全数据分析进行处法、倾向得分法和蒙特卡罗的马氏链方法,并且对多重理。单一插补方法大致可以归为两类:随机插补和确定插补的插补效果进行

2、推断,指出多重插补存在的性插补,具体包括:均值插补、热卡插补、冷卡插补、回归问题。插补和模型插补等。但是单一插补假定好像缺失值在完关键词:多重插补;缺失数据全数据分析中是已知的,并未反映出位置缺失数据的预测的不确定性,容易扭曲变量关系,无法反映无回答模型的不确定性,并且参数估计的估计方差结果将是有偏的。一、引言多重插补法则弥补了单一插补的缺陷,考虑了缺失在数据处理和数据分析中经常会出现缺失数据数据的不确定性,提出了处理缺失数据的另一种有用的(missingdata)或不完全数据(incompletedata),从抽样策略。美国哈佛大学统计学系的

3、Rubin教授70年代末调查的角度,把这些数据归结为无回答数据集。一般把首先提出多重插补的思想。它是给每个缺失值都构造m无回答分为“单位无回答”和“项目无回答”。“项目无个插补值(m>1),这样就产生出m个完全数据集,对每个回答”是指被调查单位虽然接受了调查,但只回答了其完全数据集分别使用相同的方法进行处理,得到个处理中的一部分而非全部的问题,或者对某些项目提供的资结果,再综合这个处理结果,最终得到对目标变量的估料是无用的。对于“项目无回答”,如果重新调查来获得计。准确数据,会浪费大量的时间、人力和财力,是不现实与单一插补相比,多重插补构造m个

4、插补值的目的的。因此对“项目无回答”的弥补处理多采用插补法是模拟一定条件下的估计量分布,应用完全数据分析方(imputationmethod)。法和融合数据收集者知识的能力,根据数据模式采用不插补法是指采取一定的方式为调查中的每一个缺同的模型随机抽取进行插补,能够反映在该模型下由缺失数据寻找一个合理的替补值插补到原缺失数据的位失值导致的附加(额外)变异,增加了估计的有效性;同置上,对得到的“完全数据集”使用完全数据统计分析方时在多个模型下通过随机抽取进行插补,简单地应用完法分析并进行统计推断的一种方法。全数据方法,可以对无回答的不同模型下推断的

5、敏感性插补的目的并不是预测单个缺失值,而是预测缺失进行直接研究。数据所服从的分布。通过插补,一方面,填补了缺失数据1987年,Rubin提出了多重插补程序,它是用一系的空白,使得原来有缺失数据的数据集成为一个完整数列可能的数据集来填充每一个缺失数据值(这样也突出据集,弥补了统计分析的不便;另一方面,减少了由于数了所需插补值的不确定性);然后使用完全数据的标准据缺失造成的估计量的偏差。程序去分析这些多重插补数据集;最后对这些分析结果二、多重插补的提出归纳、综合。需要注意的是无论使用哪一种完全数据分总第87期特稿5析,从不同插补数据集得到的综合结果

6、的处理程序实无缺失的观测值建立一个回归模型:质是一致的,这样就形成了有效的统计推断。Y=!+!Y+!Y+∧+!Yj01122j-1(j-1)三、多重插补机制该模型的回归参数估计为!"0,!"1,!"2,∧,!"(j-1),相应的多重插补并没有试图去通过模拟值去估计每个缺协方差阵为"2V,V是通常的X'X阵,X来自解释变量jjj失值,而是提出缺失数据值的一个随机样本,这种程序Y1,Y2,∧,Y(j-1)和截矩项。的实施恰当地反映了由于缺失值引起的不确定性,使对每一步插补,从缺失数据的后验预测分布中抽取得统计推断有效。新的参数!+!+!+∧+!和"

7、2。即根据!",!"1,!"多重插补推断包括了3个不同步骤:*0*1*2*(j-1)*j0——对缺失数据填补m次,产生m个完整的数据22,∧,!"(j-1)和"j及Vj模拟得到。然后缺失值通过下式替集代:——使用标准程序去分析这m个完整数据集!*0+!*1Y1+!*2Y2+∧+!*(j-1)Y(j-1)+zi"*j——综合这个完整数据集的结果,用于推断其中y1,y2,∧,yj-1是前j-1个变量的观测值,zi是一正态由多重插补的步骤可知,多重插补所面临的主要偏离。问题是如何得到缺失数据的多个插补模版。由于缺失(二)倾向得分法数据模型的类型决定了

8、多重插补的插补机制,因此为倾向得分法是在给定的观测协变量时,指定给一正确地进行插补,需要首先明确数据缺失机制,Little个特殊处理的条件概率。在倾向

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。