关于数据缺失机制的检验方法探讨_孙婕.pdf

关于数据缺失机制的检验方法探讨_孙婕.pdf

ID:50152668

大小:689.06 KB

页数:8页

时间:2020-03-07

关于数据缺失机制的检验方法探讨_孙婕.pdf_第1页
关于数据缺失机制的检验方法探讨_孙婕.pdf_第2页
关于数据缺失机制的检验方法探讨_孙婕.pdf_第3页
关于数据缺失机制的检验方法探讨_孙婕.pdf_第4页
关于数据缺失机制的检验方法探讨_孙婕.pdf_第5页
资源描述:

《关于数据缺失机制的检验方法探讨_孙婕.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第43卷第12期数学的实践与认识V61.43,No.122013年6月MATHEMATICSINPRACTICEANDTHEOR!rJun.,2013关于数据缺失机制的检验方法探讨孙婕-,金勇进2,戴明锋-(1.中国人民大学统计学院,北京100872)(2.中国人民大学应用统计科学研究中心,北京100872)摘要:在调查研究中,缺失数据是一个非常普遍的问题,各种处理缺失数据的方法都是建立在数据缺失机制的某种假定上.在总结他人研究成果的基础上,分别给出了MCAR!MAR和NMAR机制的检验识别方法,MCAR机制的检验从分布特征入手,通过比较均值和方差是否一致来判定;M

2、AR机制的检验利用Logit模型刻画缺失指示变量R的分布,通过估计参数的显著性来判定,NMAR机制则通过对数据的缺失模式和原因进行分析采识别.关键词:数据缺失机制;分布特征;Logit模型;缺失模式在调查研究中,缺失数据是一个非常普遍的间题,统计学上将含有缺失数据的记录称为不完全观测.如果在忽略缺失数据的情况下对不完全观测进行统计推断,其参数估计的结果可能是有偏或者是无效的,对这类问题的处理既涉及到统计推断问题,又涉及到缺失数据产生的机制问题.造成数据缺失的原因很多,比如无回答,调查信息不可用,每种缺失都会给统计分析带来不同的影响,数据缺失机制试图从本质上来说明数据

3、是如何缺失的.目前各种处理缺失数据的方法都是建立在数据缺失机制的某种假定上,研究表明,缺失机制为完全随机缺失(MCAR)时,可以采用常规分析方法进行分析,仍可获得无偏的参数估计值;缺失机制为随机缺失(MAR)时,可由EM算法和参数似然估计得到近似无偏估计值,多重插补等方法也广泛应用于MAR机制,是目前缺失数据统计分析中最常用的缺失机制假定;缺失机制为非随机缺失(NMAR)时,上述方法均会得到有偏估计.在对缺失数据进行统计分析时,首先要明确其缺失机制的类型,不能盲目选择处理方法,因此,对数据缺失机制的检验是非常有必要的.1数据缺失机制数据缺失机制描述的是缺失数据与数据

4、集中变量值之间的关系,它从本质上说明了数据缺失的原因.数据缺失机制的概念首先是由Rubin在1976年提出来的,他定义了缺失机制并将其划分为三类:完全随机缺失(MissingCompletelyatRandom,MeAR)!随机缺失(MissingatRandom,MAR)和非随机缺失(NotMissingatRandom,NMAR).定义Y为目标变量,数据集的矩阵表示为Y={Yob;,蛛i,},其中Yob,为y的观测数据,收稿日期:2012一12一11资助项目:中国人民大学科学研究基金(中央高校基本科研业务费专项资金资助)项目成果(l3XNH192)12期孙婕,等

5、:关于数据缺失机制的检验方法探讨167珠-,为y的缺失数据;定义R为缺失数据指示变量数据集,其中R=1,y没有缺失,R=几Y缺失.数据缺失机制和观测值!缺失值给定情况下的一组数据缺失的概率相关,缺失概率可记为p(RIYo",,珠,s).若抓川Yob,,珠-:)二抓司,缺失机制为完全随机缺失(MCAR),是指观测数据是否缺失不依赖于观测到的数据Yob,或未观测到的数据Ym!!.例如,在收入调查中,收入缺失可能是由于被调查者上班不在家造成,与其年龄!收入等无关,缺失概率对每个个体均相同,则数据的缺失机制是MCAR.在一定意义上,MCAR机制下的观测数据可以看作是完整数据

6、的一个纯随机样本,其均值!方差以及整体分布和全观测数据相比是没有差异的.若叫州Yo",,蛛,,)二可R}Yob,),缺失机制为随机缺失(MAR),是指观测数据是否缺失依赖于观测到的数据Yob,.MAR机制意味着在收入调查中,收入缺失的概率随该回答者的年龄发生变化,而不随相同年龄回答者的收入变化.由于数据缺失的概率现在依赖于观测到的数据,此时,似然估计有特殊的意义.在目标变量存在缺失数据的情况下,Y={Yob:,Ymi:},我们可以通过把似然函数L(Y,卿中Ymi,从积分中消除的方法对目标参数进行估计,即/L(;R)dyml一/L(Y)LR-}Y)d丫ni一fL(Y,

7、L(R,Yob,#dymi#(1)一-(/.Yob)#f/(Y)dymis如果未知参数在侧均和L(R}Yob,)中是不同的,那么通过使用f侧Y)dymi",忽略MAR机制,仍然可以通过侧y)得到目标参数的有效估计.若拭R}Yo"",珠-:)二尸(R}蛛,:)或者就是尸(R>Yob,,珠-二)本身,缺失机制为非随机缺失(NMAR),是指观测数据是否缺失依赖于未观测到的数据珠-,,或许还依赖于观测到的数据yob".例如,在收入调查中,回答者和无回答者的收入可能是不同的,收入越高,回答倾向越低,收入缺失的概率随有被调查者的收入而发生变化,则数据的缺失机制是NMAR.当

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。