欢迎来到天天文库
浏览记录
ID:32841307
大小:3.12 MB
页数:102页
时间:2019-02-16
《不同缺失值处理技术的模拟比较》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、Athesis(dissertation)submittedtoZhengzhouUniversityforthedegreeofMaster(doctor)SimulatedComparisonofDifferentfillingMethodsinMissingValuesByLinlinHuaSupervisor:Prof.XuezhongShiDepartmentofHealthStatisticsCollegeofPublicHealthMay,2012学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指
2、导下,独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的法律责任由本人承担。.学位论文作者:校渐晰日期:二刀位年占月/≯日学位论文使用授权声明本人在导师指导下完成的论文及相关的职务作品,知识产权归属郑州大学。根据郑州大学有关保留、使用学位论文的规定,同意学校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅;本人授权郑州大学可以将本学位论文的全部或部分编入有关数据库进行检索
3、,可以采用影印、缩印或者其他复制手段保存论文和汇编本学位论文。本人离校后发表、使用学位论文或与该学位论文直接相关的学术论文或成果时,第一署名单位仍然为郑州大学。保密论文在解密后应遵守此规定。学位论文作者:氍腓诽日期:矽7工年∥月/笋日中文摘要ffIIItlIIIIIIrlllfIllrru/IIIIllfY2102fUrfl/l/lll/lUl746目的在艾滋病中医证候研究领域,数据缺失现象普遍存在。数据缺失会增加分析的复杂性,造成结果偏倚等一系列的问题。探索适合该数据库的缺失值填充方法是进行数据分析前迫切需要解决的问题。本研
4、究以中医证侯现场调查数据为基础,通过数据模拟技术,比较不同的处理方法的优劣,探讨各自适用性,确定MI法的最佳填补次数,探索不同的缺失模式和缺失机制下,最为准确、高效、方便的处理方法。方法利用SAS9.1,模拟出完整数据集和不同缺失率的数据集,对于完全随机缺失和随机缺失的连续变量,采用期望最大化法(expectationmaximization,EM)、回归法、均值填补法、成组删除法、多重填补法(multipleimputation,MI)进行填补,比较不同方法处理后的精确度、准确度以及均值。二分类变量,采用成组删除法和MI中的
5、logistic回归进行填补,比较不同方法处理后的回归系数以及标准误。.9士甲皇口木1.连续变量:本资料的数据均为任意缺失模式,随着填充次数的增加,填充效率逐渐增加,在MI填充10次时填充效率均达到0.95以上。精确度也伴随着填充次数的增加而逐渐增加,填充10次后精确度最高。关于准确度,缺失20%以下时,只需较少的填充次数<3.5次),就能达到较高的准确度;缺失率30-40%时,MI填充10次的准确度相对较高;缺失50%以上时,准确度不稳定。2.完全随机缺失机制:缺失10%以下时,任何一种方法处理后,都与完整数据集均值一致,M
6、I法的精确度和准确度最高。缺失20%以上时,采用成组删除法和MI法效果优于其他方法,MI法的精确度高,成组删除法的准确度高。.3.随机缺失机制:缺失较少时(10%.20%),采用MI法准确度、精确度高生文摘要于其他方法。缺失30%时,采用成组删除法处理后的准确度高,但是精确度较差。缺失较多(缺失率>40%)时,所有方法填充效果均不佳。4.二分类变量,缺失较少(缺失率<40%)时,采用成组删除法简单易行、准确、高效,而MI法程序比较复杂,需占用较大内存和时间进行反复填补,且结果不如成组删除法。缺失40%.50%时,采用MIAog
7、istic回归法,只需较少的填补次数(2次)即可达到较好的效果。缺失率60%以上时,两种方法的处理效果均不好。结论对于大样本连续型变量资料,可认为服从正态分布,可容许的缺失比例在30%以下。传统的缺失值处理方法,如均值填补法和成组删除法简单、方便,具有一定的优势,但是MI法更能够解决相对比较普遍的问题,发挥优势的空间更大,方便了人们对绝大多数类型的缺失值进行填补,填补效率较高。关键词缺失值模拟技术填补方法完全随机缺失机制随机缺失机制.IIAbstraetObjectiveAbstractMissingvalueiSacOlTl
8、mOllproblemintraditionalChinesemedicineofHIV/AIDS.Itwillincreasethecomplexityoftheanalysis,andcItHSt:biasoftheresultsandSOOn.Itisurgenttor
此文档下载收益归作者所有