缺失大数据地插补调整重点

缺失大数据地插补调整重点

ID:30800960

大小:76.50 KB

页数:13页

时间:2019-01-03

缺失大数据地插补调整重点_第1页
缺失大数据地插补调整重点_第2页
缺失大数据地插补调整重点_第3页
缺失大数据地插补调整重点_第4页
缺失大数据地插补调整重点_第5页
资源描述:

《缺失大数据地插补调整重点》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、文章编号:1002-1566(200106-0047-07缺失数据的插补调整ΞΞΞ金勇进(中国人民大学统计学系,北京100872摘要:插补是另一类对缺失数据进行调整,以减小估计偏差的方法估计,均值插补,随机插补,回归插补和多重插补。关键词:缺失数据;插补调整中图分类号:O212;C81,一种被称为“单位无回答”,它是指入选择本单位由于各种原因没有接受调查,可以说这些样本单位交的是一份白卷。另一种被称为“项目无回答”,它是指被调查单位虽接受调查,但在某些调查项目上没有提供有效回答。与单位无回答相比,项目无

2、回答或多或少地提供了一些被调查单位的信息。上一讲中介绍的加权调整法虽然也可以应用于“项目无回答”,但主要是对“单位无回答”进行的调整。而本文将要介绍的插补调整法虽然也可以应用于“单位无回答”,但主要是对“项目无回答”进行调整的方法。所谓插补是指,采用一定的方式,为调查中的缺失数据确定一个合理的替补值,插补到原缺失数据的位置上。插补可以达到二个调整的目的:一个是减小由于数据缺失可能造成的估计量偏差,为此,就要使确定的替补值尽可能地接近缺失的原数据值。事实上缺失数据的真值我们无法得知,因此所追求的只能是确定

3、替补值方法的合理和有效。调整的第二个目的是力图构造一个完整的数据集。在调整前,由于缺失值的存在,使原数据集上出现许多“窟窿”,给一些统计分析方法的使用带来不便。采用插补的方式填补了缺失值的空缺,就为后面分析人员的工作提供了方便,他们在使用标准统计软件的同时,不必繁琐地说明对缺失值进行处理的方法,大大节省了精力和时间。而且不同分析人员使用的是同一套经过插补调整的数据,也保证了分析结果的一致性。插补的效率如何,取决于替补值与缺失值的近似程度。为了提高效率,对研究总体进行分层,使层内各单位诸方面情况尽可能相似

4、,利用同一层内回答单位的信息产生出缺失数据的替补值,是进行插补的基本思路。因为可以利用不同的信息源,采用不同的方式生成替补值,所以有不同的插补方法。本文将对几种比较典型的方法做以简要介绍。二、演绎估计法演绎估计法适用于这样一种情况,目标变量Y的缺失值可以以很高的确定性由其它辅助74缺失数据的插补调整ΞΞΞ收稿日期:2000-08-20基金项目:国家教育部人文社会科学研究“九五”规划项目资助课题变量来决定。这意味着,目标变量与辅助变量之间存在着已知的函数关系,即Zi=f(Xi。式中Zi是第i个单位目标变量

5、缺失值的估计值(替补值,Xi是第i个单位已知的辅助变量值。例如美国在一项关于医疗设备使用和费用的调查中,多处使用演绎估计法对缺失值进行插补。1.对种族缺失值的插补函数式为Zi=Xi,即如果某人种族数据缺失,可采用其配偶的种族;如果某家庭成员种族资料缺失,可使用户主的种族。2.如果年龄项目数据缺失,则利用出生年份资料进行估计。若调查是在1990年进行,令Xi为出生年份,则Zi=1990-Xi。3.若就业收入的数据缺失,则利用其它4个相关的辅助变量信息推算。令X1i、X2i分别为该被调查者的主要职业和第二职

6、业的周工资率,X3i、X4i分别为其在主要职业和第二职业上的工作周数入的估计值为Zi=X1i.X3i+X2i.X4i。由此看出,f(Xi可假定为许多不同的形式Y与关系,且X值已知。实践中,。三,使组内各单位的主要特征相似。然后分别计算各,将各组均值作为组内所有缺失项的替补值。均值插补法的特点是操作简便,并且对均值和总量这样的单变量参数可以有效地降低其点估计的偏差。但它的弱点也比较突出。一个是插补的结果歪曲了样本单位中Y变量的分布,因为同组中缺失数据的替补值都由该组的平均值充当,使得其分布状况受到由各组回

7、答单位数据计算出的组均值的制约,其次,插补结果将导致在均值和总量估计中对方差的低估,因为同一组内样本单位的离差将由于同一个数值的多次出现而偏低,因此均值插补适用的场合是仅仅进行简单的点估计,而不适用于需要方差估计等比较复杂的分析。四、随机插补法为避免均值插补中替补值过于凝集的弱点,随机插补应运而生。这种方法是指,采用某种概率抽样的方式,从回答单位的资料中抽取缺失数据的替补值。为便于说明,令某项目回答数据个数为n1,缺失数据个数为n0,则n=n1+n0,现从n1个数据中随机抽取n0个替补值,则样本构成为:

8、样本={y1,y2,…,yn1,y3n1+1,y3n1+2,…,y3n}此时,目标变量的均值估计为:yhD=n(n1y1+n0y3式中,y3=∑n1i=1Hiyi/n0,如果采用不重复抽样,Hi=0或1;如果采用重复抽样,则H为多项式分配,若h1+…+hn1=n-n1,则P[H=(h1,h2,…,hn1]=(h1!h2!hn1!否则上面所定义的概率为0,由此得出E(Hi=n184               数理统计与管理    20卷 5

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。