欢迎来到天天文库
浏览记录
ID:21484057
大小:57.50 KB
页数:8页
时间:2018-10-22
《心理学研究中缺失数据的分析方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、心理学研究中缺失数据的分析方法心理学研究多通过观察、实验和测验等收集数据。数据存在不同程度的缺省,这在实际应用中非常普遍。缺失数据是指未能取得所要搜集资料的一种现象,其有多种术语,诸如无回答(nonresponse)、缺失数据(missingdata)、不完全数据(inpletedata)与无访问(nonintervieond与Roberts则认为X40%时才考虑删除这些数据。(二)缺失机制缺失数据与诸多变量等相关,处理方法的性质依赖这些相依关系的特征。为论述方便,记全部变量Y观测值中那些完整的变量为Yobs、不完整的为Ymis。如果缺失值与
2、Y相互独立无关,则缺失数据为完全随机缺失(MACR,missingpletelyatrandom)的,是特殊情形。此时缺失值是总体的一个简单随机抽样。如果缺失值仅与Yobs相关联、与Ymis相互独立,则是随机缺失(MAR,missingatrandom)。如果Yobs与Ymis之间存在着依赖关系,则称非随机缺失(NMAR,notmissingatrandom),是不可忽略的。二、单一借补单一借补用一个借补值替代全部缺失值,后用完全数据方法分析数据。单一借补是缺失数据处理中最通用方法之一,有多种方法。(一)推理借补与最近邻借补根据已有信息推断缺
3、失数值,该方法简单易行,可提供准确借补值,或者近似准确借补值,同等情况下可优先进行推理借补。例,信息收集时已提供有姐弟信息的某被试“独生子女”一项空着,可推断为“否”。最近邻借补选用与缺失数据提供者相类似的被试数据替代该缺失值。按照匹配变量找到一个以缺失数据提供者类似的被试时,可还用例如欧式距离等来度量类似程度。(二)均值借法均值借补用已得数据的均值替代全部缺失值。借补值易均值形成尖峰,严重扭曲数据分布。当数据缺失非MACR时,将低估统计量方差,导致参数估计偏差,且不适用需方差的复杂分析。(三)回归借补回归借补可分为线性回归借补,非参数回归借
4、补等。本文主要关注线性回归借补,用Yk关于数据完全的变量回归模型,回归值替代缺失值。建立回归方程时有一次或多次迭代之分。多次迭代中,预测变量以逐步进人模型,获得预测力最佳、最精简的变量组合;回归值替代缺失值,后建立新模型;如此,至回归系数变化不显著。是类别变量时,则考虑进行变换,进行线性回归。同时,我们还应注意到利用严格的回归方程进行预测,易人为增大变量之间的关系。多数情况下,教育学、心理学讨论的变量大多都不是相互独立的。选择该方法时,须考虑当预测变量与变量Y是否存在高度的相关关系。其构造借补值的逻辑清晰,相对客观。该方法能得到合乎逻辑的结果
5、,尤其满足正态分布时。数据模拟实验表明,方法加精确。三、多重借补多重借补(multipleimputation,MI)基于缺失值的预测分布或统计模型的方法:提供多个借补值依次替代各个缺失值、构造个“完全数据”,121,191211后运用完全数据统计方法分别分析多个数据集;分别得到数个分析结果,拟合这多个结果,获得对缺失值的估计等,甚至是置信区间、P值。MI具备例如连续性的优良统计性质。(一)回归预测法与倾向得分法回归借补基于已有数据建立回归模型、嵌入借补值。先确定观察协变量,倾向得分法赋予一个条件概率。即对各Y产生一个观测值缺失概率,并以倾向
6、得分表示。依据倾向得分对数据分组,组内进行近似贝叶斯Bootstrap(ABB)借补。(二)似然的方法1.极大似然估计从理论上来看,极大似然法(MaximumLikelihood,ML)至今仍是参数点估计中的重要方法。既定模型下缺失值的诸多估计均可基于似然函数进行。ML利用总体数量特征的分布函数等,建立未知参数的估计量。将Y作为未知变量0,构造关于e的似然函数,后求的参数的极大似然估计量,甚至在参数空间内的置信区间,或者置信区域。参数极大似然估计量(MLE)具有不变性,推广至多元变量时该优良性质亦成立。这恰能满足实际研究需要。基于其渐进最优性
7、质等,ML成为参数估计的常用方法,诸如SPSS10.0、LISREL8.7等软件包均收人该方法。2.期望极大化算法期望极大化算法(Expectation-Maximizationalgorithm,EM)是ML有效方法,主要用来计算基于不完全数据的MLE15。当由于观测过程局限带来数据部分缺失时,或似然估计因似然函数不是解析函数而无效时可选用该方法。EM是一种迭代算法,每次迭代似然函数值都将有所增加,进而保证参数估计值收敛到一个局部极大值。此外,EM可自动实现参数约束。基于软件数据模拟表明X30%时EM算法可得到比较好的结果。3.MCMC方法
8、当缺失值分散在多个变量时,回归法基于对回归系数的估计获得借补值。复杂缺失模型中,回归系数的估算又依赖于借补值。这里似乎存在某种循环论证痕迹。此时,可考虑迭代法中马尔
此文档下载收益归作者所有