缺失数据处理中相关问题的探讨.pdf

缺失数据处理中相关问题的探讨.pdf

ID:51542728

大小:27.36 KB

页数:4页

时间:2020-03-12

缺失数据处理中相关问题的探讨.pdf_第1页
缺失数据处理中相关问题的探讨.pdf_第2页
缺失数据处理中相关问题的探讨.pdf_第3页
缺失数据处理中相关问题的探讨.pdf_第4页
资源描述:

《缺失数据处理中相关问题的探讨.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第19卷第5期统计与信息论坛Vol.19No.52004年9月Sept.,2004【统计理论与方法】缺失数据处理中相关问题的探讨庞新生(北京林业大学经济管理学院,北京100083)摘 要:文章就缺失数据处理中涉及到的相关问题做了初步探讨,并在比较单一插补法与多重插补法的基础上,举例说明多重插补法处理缺失数据的基本程序。关键词:缺失数据;单一插补;多重插补中图分类号:C811  文献标识码:A  文章编号:1007-3116(2004)05-0029-04  缺失数据的处理是数据分析中的难题之一,

2、而以看出缺失数据产生机制主要是关注在Y给定的这一问题处理的得当与否,直接关系到估计的结果。条件下M的分布。由于缺失数据涉及范围很广泛,给出一个明确的界需要指出的是,在可忽略机制之下产生的缺失定是很困难的,但从来源看,既包括实验中的缺失数数据处理相对容易,处理方法容易掌握,而在不可忽据,也包括调查中的缺失数据;从性质看,既包含没略机制之下产生的缺失数据处理比较困难,原因在有搜集到的数据,也包括搜集后遗失(或剔除)的数于偏差的程度难以把握。据。具体到抽样调查中,既包括由于无回答所造成(二)数据缺失模

3、式的缺失数据,也包括由于填报错误、汇总等原因所造当一维目标变量出现缺失数据时,在数据处理成的,在数据处理应该加以调整或剔除的数据。过程中首先要考虑缺失数据产生机制,而对于多维目标变量而言,除了考虑缺失数据产生机制外,还要一、缺失数据产生机制与数据缺失模式判断数据的缺失模式。假设完全数据资料阵Y是(一)数据产生机制由m个观测、n个变量组成的m×n矩阵,对这个矩缺失数据产生机制是通过探讨缺失数据的出现阵进行适当的行列变换后,可以得到这样一个矩阵,与目标变量是否有关而界定的,如果缺失数据的出它呈现出一

4、种层级缺失的模式,即:当矩阵中的元素现是随机的,就将该类缺失数据产生机制定义为可Yij缺失时,则对任意的p≥i和q≥j,元素Ypq也是缺忽略的;如果缺失数据的产生与研究变量有关,称之失的(见图1)。这种数据缺失模式被称为单调缺失为不可忽略的。具体而言,若令Y表示完全数据资模式(monotonemissingnesspattern)。不满足单调料阵;Yobs为Y中的观测值;Ymis为Y中的缺失值;缺失模式的,被称为任意缺失模式(arbitrarymiss2M为缺失数据描述矩阵:ingnesspat

5、tern)。1,Yij缺失值对于单调缺失模式来说,缺失数据的处理比较Mij=0,Yij观测值简单,但在大多数复杂的调查中,这种缺失模式很少若p(M

6、Y)=p(M)对所有的Y都成立,称之为完全见。对任意缺失模式而言,处理方法较为复杂。如随机缺失(MCAR);若p(M

7、Y)=p(M

8、Yobs)对所有果可能的话,可以先将非单调缺失资料阵变换为单的Ymis都成立,称之为随机缺失(MAR);若p(M

9、Y)调缺失,之后再采用针对单调缺失模式的处理方法。与Ymis有关,称之为非随机缺失(NMAR)。由此,可收

10、稿日期:2004-03-15作者简介:庞新生(1970-),男,山西省榆次人,博士。研究方向:抽样技术和数据分析。29©1995-2005TsinghuaTongfangOpticalDiscCo.,Ltd.Allrightsreserved.统计与信息论坛单调缺失模式对性的补救措施。就一般情况而言,缺失数据处理变  量方法大体上可以概括为三种:obsY1Y2Y3Y4Y511直接估计。不考虑缺失数据影响,直接在目1○○○○○前获取的数据基础之上进行分析。该方法仅适用含2○○○○◎有少量缺失数据的

11、,该方法比较容易执行,但是容易3○○○○◎导致严重的偏差。4○○○◎◎5○○○◎◎21再抽样基础上的估计。(1)多次访问。尽管6○○○◎◎采取了预防措施,但是在第一轮的调查之后仍会出7○○◎◎◎现无回答形式的缺失数据。对无回答单位进行再次8○○◎◎◎的补充调查,以尽可能多地获得调查数据。如果缺9○◎◎◎◎失数据是在不可忽略机制下产生,由于积极回答者………………和不积极回答者之间的数量特征有较大差异,多次m◎◎◎◎◎访问很有必要,且这种差异越大,访问的次数也需相任意缺失应增加。(2)替换被调查单位

12、。在出现无回答的情变  量况下,为了使样本量不低于原设计要求,一个补救的obsY1Y2Y3Y4Y5方法是实行替换,用总体中最初未被选入样本的其1◎◎◎○◎他单位去替代那些经过努力后仍未获提回答的单2◎◎◎◎○3◎◎◎◎○位,使用替换法应尽可能保证替代者和被替代者的4◎◎◎◎○同质性。(3)对无回答进行子抽样。当后继访问的5○◎◎○○单位费用昂贵时,子抽样被作为减少其访问次数的6◎◎◎○○一种现成的方法。但当后续访问的单位费用很少7◎○◎○○[1]时,没有必要引入子抽样。8◎◎◎○○31间接估计。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。