单一插补方法与多重插补方法的对比及分析.doc

单一插补方法与多重插补方法的对比及分析.doc

ID:56482441

大小:36.50 KB

页数:4页

时间:2020-06-24

单一插补方法与多重插补方法的对比及分析.doc_第1页
单一插补方法与多重插补方法的对比及分析.doc_第2页
单一插补方法与多重插补方法的对比及分析.doc_第3页
单一插补方法与多重插补方法的对比及分析.doc_第4页
资源描述:

《单一插补方法与多重插补方法的对比及分析.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、单一插补方法与多重插补方法的对比及分析0.缺失数据说明Little和Rubin根据缺失机制的不同,缺失数据可分为三大类:完全随机缺失数据(MCAR),随机缺失数据(MAR)以及非随机缺失数据(NMAR)。MCAR表示某些变量数据的缺失完全不依赖于变量或者回答者的真实情况,是严格意义上的随机缺失;MAR表示某些变量数据的缺失与回答者的真实情况是独立的;NMAR则表示变量数据的缺失与回答者的真实情况之间有相关的联系,并不是随机缺失的。实际情况中,缺失数据对数据分析造成较大的影响,主要表现在两个方面:数据统计的功效以

2、及会带来有偏估计。Kim和Curry(1997)发现当有2%的数据缺失时,若采用列表删除的方法,将会带来18.3%全部信息的丢失。Quinten和Raaijmakers(1999)的研究表明10%~35%的数据缺失会带来35%~98%的信息丢失。可见,对缺失的数据不进行处理会给整个数据结构带来巨大的影响。故而,在数据分析中,对缺失数据的处理至关重要,同时该部分也是目前新兴学科——数据挖掘技术的重要组成部分。在处理缺失数据时,为了方便处理,一般假定缺失机制为MAR或者MCAR,这样可利用数理统计方法进行处理。缺失

3、数据的处理方法可分为三大类:直接删除法、插补法、基于模型的预测方法。其中直接删除法最为便捷,同时也是最为粗糙的方法,该方法易造成真实信息的大量丢失,仅仅适用于极少量的数据缺失情况。相比而言,插补法和基于统计模型的预测方法比较常用,也较为有效。根据每个缺失值的替代值个数,可将插补方法分为单一插补和多重插补。1.单一插补与多重插补概念单一插补是指采用一定方式,对每个由于无回答造成的缺失值只构造一个合理的替代值,并将其插补到原缺失数据的位置上,替代后构造出一个完整的数据集。多重插补是由哈佛大学的Rubin教授在197

4、7年首先提出的,该方法是从单一插补的基础上衍生而来的。指给每个缺失值都构造m个替代值(m>1),从而产生了m个完全数据集,然后对每个完全数据集采用相同的数据分析方法进行处理,得到m个处理结果,然后综合这些处理结果,基于某种原则,得到最终的目标变量的估计。多重插补可分为三个阶段:(1)对目标变量的估计,(2)创建完全数据集,(3)目标变量的确定。其中最关键的阶段为目标变量的估计,该阶段需要确定估计缺失值的方法,即缺失值是以何种方法或者模型被估计出来,该阶段直接影响统计推断的有效性。理想的多重插补一般都按照以下方案

5、进行:每个插补模型,对无回答Y[,m]的m次插补,实际就是从Y[,m]的后验预测分布中进行m次独立重复抽取,即从与数据和无回答机制相对应的贝叶斯模型中独立抽取参数和无回答数值。实践中在选择模型时应考虑三个重要问题:模型是显性的还是隐性的,是可忽略的还是不可忽略的,以及插补模型是否适当?显性模型在数理统计中经常使用的方法,比如正态线性回归、多元正态模型等。隐性模型被认为是潜在的隐含的“修补”特定数据结构的方法,比如非参数方法、最近距离法等。尽管在理论上显性模型被认为是理想的多重插补技术,但实践中经常采用的却是隐性

6、模型,或是显性模型和隐性模型的结合。例如,Herzog和Rubin曾在美国普查局的热卡法的基础上,改进生成一种结合显性回归模型和隐性配对模型反复插补的方法。插补模型,无论是显性还是隐性,都可按照无回答机制分为可忽略的模型和不可忽略的模型。例如,X是数据中所有单元都回答的变量,Y有回答也有无回答。可忽略的(Ignorable)模型假设具有相同X值的回答者和无回答者的差异都是随机的。不可忽略的(Non-ignorable)模型则假设即使具有相同的X值,回答者和无回答者之间的Y值具有系统差异。在实际数据中,如果没有直

7、接证据能验证无回答机制的假设,可以利用多个模型来研究其敏感性。插补模型,无论是显性还是隐性,可忽略或是不可忽略,必须是适当的模型,才可能得出有效推断。使用适当插补模型的本质在于,在利用模型进行重复插补时可以正确反映抽样的变异性,从而才能得出有效推论。例如在可忽略的无回答假设下,具有相同X值的回答者和无回答者的Y值差异都是随机的,但是从相同X值的Y回答值中随机抽取插补值,忽略了抽样变异性,即被抽取的相同X值的Y回答值与相同X值的总体Y值的随机差异性。要正确反映这种变异性,才能在既定无回答机制下得出多重插补的有效推

8、断。利用近似贝叶斯靴环法(ABB)可以满足这一要求。在可忽略的无回答机制下,假设收集相同X值的n个单位的资料,其中有n[,r]个回答者,n[,m]=n-n[,r]个无回答者。ABB首先从n[,r]个回答值中有放回随机抽取n[,r]个值,作为Y的n[,r]个可能值,再从该n[,r]个可能值中有放回随机抽取n[,m]个无回答插补数据。这里从n[,r]个可能值而不是n[,r]个回答值中抽取插

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。