欢迎来到天天文库
浏览记录
ID:33627124
大小:106.67 KB
页数:4页
时间:2019-02-27
《对模拟纵向数据集缺失值处理的几种方法比较.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、第22卷第2期湖南工业大学学报Vol.22No.22008年3月JournalofHunanUniversityofTechnologyMar.2008对模拟纵向数据集缺失值处理的几种方法比较易昆南,袁中萸(中南大学数学科学与计算技术学院,湖南长沙410075)摘要:运用SAS9.0、数据模拟技术,分别模拟纵向完整数据集和具有各种缺失率的随机缺失数据集,采用多重填补法(MI)、期望值最大化法(EM)和回归插补法(Regression)对各缺失数据集进行处理,对结果进行比较和分析。结果表明,对不同缺失率的数据集,MI、EM和Regression法对缺失值的处理各有优劣。关
2、键词:多重填补法;期望值最大化法;回归插补法;缺失值中图分类号:O212文献标识码:A文章编号:1673-9833(2008)02-0048-04ComparisononSeveralMethodsinSimulatedLongitudinalDatawithMissingValuesYiKunnan,YuanZhongyu(SchoolofMathematicalScienceandComputerTechnology,CenterSouthUniversity,Changsha410075,China)Abstract:Thesimulateddatasetswit
3、hvarymissingratesaretreatedbymultipleimputation(MI),expectationmaximi-zation(EM)andregressionmethodsandtheresultsarecomparedwiththatofcompletedatasetbyrunningSAS9.0procedures.Theresultsshowedthatindifferentmissingratedata,MI,EMandRegressionhavetheirownadvantagesanddisadvantages.Keywords:
4、multipleimputation;expectationmaximization;regressionimputation;missingvalues0引言1数据模拟在调查研究中,数据缺失是一个常见的问题。数通过SAS9.0编程,模拟一个完整数据集,该数据[1]据缺失可能导致样本信息减少、检验效能降低以及集中包含的观察数为n=100,1个因变量y,6个自变量,增加统计分析的复杂性。当缺失数据过多时,可能完其中x,x,x,x,x,x均为连续变量,每一个体重复123456全失去利用价值,即使数据缺失在能够处理的范围之测量10次。对该数据集建立多元线性回归模型内,如果处理
5、方式不恰当,可能造成分析结果的偏性y=α+βx+βx+βx+βx+βx+βx+ε,112233445566或不能充分利用资料信息。估计该模型各参数及其标准误差。缺失值处理问题涉及的统计方法较多,不同方法对该完整数据集模拟100次,得到该模型各参数对特定资料缺失值处理的优劣只有通过比较和鉴别才及其标准误差的平均值作为比较的标准。在此基础能显现。本研究拟采用数据模拟技术,比较多重填补上,仍采用SAS9.0编程,对该完整数据集构造各种不[2,3]法(multipleimputation,简称MI)、期望值最大化法同缺失率的随机缺失数据集,对每一种缺失率的数(expectati
6、onmaximization,简称EM)和回归插补法据集均模拟100次,分别采用MI、EM与Regression法(regressionimputation,简称Regression)3种缺失值处对每一种缺失率的数据集缺失值进行处理,得到上述理方法的优劣。模型各参数及其标准误差的估计值,并与完整相应参收稿日期:2008-01-10基金项目:湖南省自然科学基金资助项目(03JJY4071)作者简介:易昆南(1954-),男,湖南长沙人,中南大学教授,硕士生导师,主要从事随机数学与建模方面的教学与研究.第2期易昆南,袁中萸 对模拟纵向数据集缺失值处理的几种方法比较49数及其
7、标准误差进行比较。析,并将所得结果进行综合,得到最终的统计推断。期望值最大化法(EM法)反复强调采用先估计缺2缺失值处理失值,然后估计参数。“M”的步骤是假设没有缺失数据而进行最大似然估计,然后进行“E”步,即是在给多重填补法(MI法)由Rubin于1987年最早提出,定的观测数据和当前得到的参数估计值的条件下,求它是一种用2个或更多的可得到的并能反映数据本身出缺失值的条件期望,缺失数据可以用期望值替代,[4]分布概率的值来填补缺失值的方法。近年来,MI法继续以上步骤,直到参数的估计值收敛为止。[5]在国外发展成为处理缺失值的最常用方法之
此文档下载收益归作者所有