SPSS学习系列09.缺失值处理

SPSS学习系列09.缺失值处理

ID:42923839

大小:442.70 KB

页数:23页

时间:2019-09-23

SPSS学习系列09.缺失值处理_第1页
SPSS学习系列09.缺失值处理_第2页
SPSS学习系列09.缺失值处理_第3页
SPSS学习系列09.缺失值处理_第4页
SPSS学习系列09.缺失值处理_第5页
资源描述:

《SPSS学习系列09.缺失值处理》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、实用标准文档09.缺失值处理空缺值(用“.”表示)和输入错误值,都属于缺失值范畴。输入错误值需要做“数据检验”来发现:(1)【分析】——【描述统计】——【描述】和【频率】(2)【图形】——【旧对话框】——【箱图】观察极小、极大值、频率、异常值等来判断。例如,性别“男=1,女=2”,若极大值出现3,则是输入错误值;箱线图或3σ原则发现的异常值,则要先改成缺失值。缺失值的处理方法通常有四种。一、删除有缺失值的个案删除有缺失值的个案,或在具体统计分析时的【选项】——【缺失值】框选择某种处理方法:文案大全实用标准文档①按列表排除个案——只要任何一个变量含有缺失值,就要剔除出所

2、有因变量或分组变量中有缺失值的观测记录;②按对排除个案——同时剔除带缺失值的观测量及与缺失值有成对关系的观测量(对照分析);③使用均值替换——使用该变量的均值替换缺失值。二、替换缺失值SPSS提供了5种简单替换缺失值的方法:(1)序列均值——该变量的有效观察值的平均数;(2)临近点的均值——该缺失值前后n个观察值的平均数;(3)临近点的中位数——该缺失值前后n个观察值的中位数;文案大全实用标准文档(4)线性插值——该缺失值前后观察值建立插值直线确定【同取n=1的(2)】;(5)点处的线性趋势——以编号为自变量用线性回归法预测值。现有数据文件:1.【转换】——【替换缺失

3、值】,打开“替换缺失值”窗口,将变量“统计成绩”选入【新变量】框;2.【名称和方法】框,设定新变量名称“统计成绩_1”,方法选“序列均值”文案大全实用标准文档3.点【确定】,得到注意:若某个案的缺失值较多最好删除该个案,而不是替换其缺失值。三、缺失值分析SPSS中更高级的处理缺失值的方法是缺失值分析,它能够文案大全实用标准文档(1)缺失值的描述和快速诊断:用灵活的诊断报告来评估缺失值问题的严重性,用户可以观察到它们在哪些变量中出现,比例是多少,是否与其它变量取值有关,从而得知这些缺失值出现是否会影响分析结论。(2)得到更精确的统计量:提供了多种方法用于估计含缺失值数据

4、的均值、相关矩阵或协方差矩阵,通过这些方法计算出的统计量更加可靠。(3)用估计值替换缺失值:使用EM或回归法,用户可以从未缺失数据的分布情况中推算出缺失数据的估计值,从而能有效地使用所有数据进行分析,来提高统计结果的可信度。【缺失值分析】实例操作,使用SPSS20自带的实例文件:telco_missing.sav文案大全实用标准文档1.【分析】——【缺失值分析】,打开“缺失值分析”窗口,将变量“婚姻状况、教育程度、退休、性别”选入【分类变量】,将变量“服务月数、年龄、现在住址居住年数、家庭收入、现职位工作年数、家庭人数”选入【定量变量】注意:最大类别(最大分类数)默认

5、为25,超过该数目的分类变量将不引入分析。2.点【描述】,打开“描述统计”子窗口,用来设置要显示的缺失值描述统计量。文案大全实用标准文档勾选“单变量统计量”,勾选【指示变量统计量】框的“使用有指示变量形成的分组进行的t检验”和“为分类变量和指示变量生成交叉表”,点【继续】3.点【模式】,打开“模式”子窗口,用来设置显示输出表格中的缺失数据模式和范围。勾选“按照缺失值模式分组的表格个案”;因为“教育程度”、“退休”和“性别”中的缺失模式似乎影响数据,“家庭收入”含有大量缺失值,将这些变量选入【附加信息】;文案大全实用标准文档其它保持默认,点【继续】4.回到原窗口,勾选【

6、估计】框中的“EM”和“回归”,其它默认设置。点击【EM】或【回归】按钮可以修改其设置文案大全实用标准文档注意:若要保存替换缺失值之后的数据,需要勾选“保存完成数据”:创建新数据集并命名,或写入新数据文件。文案大全实用标准文档另外,默认使用所有变量进行分析,若要选择部分变量,可点【变量】按钮修改。点【确定】,得到输出结果:单变量统计N均值标准差缺失极值数目a计数百分比低高tenure96835.5621.268323.200age97541.7512.573252.500address85011.479.96515015.009income82171.146283.1

7、442417917.9071employ90411.0010.113969.6015reside9662.321.431343.4033marital88511511.5ed965353.5retire916848.4gender958424.2a.超出范围(Q1-1.5*IQR,Q3+1.5*IQR)的案例数。提供了数据的一般特征,给出了所有分析变量缺失数据的频数、百分比,定量变量的均值、标准差、极值数目。income(家庭收入)有最多具有缺失值(17.9%),也有最多的极值;而age(年龄)有最少缺失值(5%)。文案大全实用标准文档估计均值摘要t

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。