欢迎来到天天文库
浏览记录
ID:19832880
大小:49.00 KB
页数:17页
时间:2018-10-06
《抽样调查数据清理与校验》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、抽样调查数据的清理与校验抽样调查数据的清理与校验王卫东、冯仕政、陆益龙、刘精明第一节研究问题与意义Lessler和Kalsbeek曾根据调查的不同阶段对误差来源进行过分类:在抽样框收集、抽样实施过程中会存在抽样误差,在调查实施中会出现无回答误差和计量误差。事实上,任何一次严格的随机抽样调查数据,一般都会存在两个层面的误差:(1)抽样过程中的误差;(2)存在于被访者那里的真实信息与研究人员在统计分析过程中实际可得信息之间的误差。这里,我们将前一种误差称为“抽样误差”,将后一种误差称为“测量误差”。本章所讨论
2、的“数据清理与校验”问题,基本上针对“测量误差”而言。我们认为,测量误差是指被访者的真实信息通过一系列的询问-回答、调查员记述、编码、机读格式存储等转换过程后所产生的信息变异。大多数信息变异都可能是一种非随机误差,它涉及的范围大体包括如下几个方面:(1)录入误差,即将问卷记录信息转换为机读格式存储信息过程所产生的录入错误;(2)无回答误差,即在问卷的某个或某些问题上,由于被访拒答,或者由于调查员询问、记录出现遗漏等原因所产生的信息缺失;(3)回答偏差,产生这类偏差的原因可能是多方面的:一是调查员询问未能准
3、确表达测量目标,致使被访者错误理解问题而产生回答信息与测量要求的不一致,或者相反,被访对询问问题的理解有偏误,因而做出与测量要求不一致的回答;二是题器设计模糊,致使不同被访或调查员对问题产生歧义性理解,从而使收集的信息无法达到测量效果;三是问卷访谈过程受到第三方因素的干扰(比如他人在场、突发事件、访谈被中断等),致使回答产生偏差;四是被访有意报告虚假信息。(4)记录和编码的偏差,即在记录和编码被访者回答信息时,由于调查员的失误而产生的信息偏差。上述测量误差大多是所谓的非随机误差。抽样过程的随机误差一般可以
4、通过抽样技术加以推断和控制,或者可以通过一定的估计手段加以有效估计(比如抽样误差),而非随机误差的控制却是一项复杂的工作,对它的估计也经常令研究者感到十分头痛,有时候它可能会一直潜藏在研究者的分析结果之中,很难为研究者所发现。在大型入户问卷调查的实施过程中,研究者往往由于无法全面掌握抽样以及问卷访谈的具体细节,从而对问卷数据到底可能发生了什么样的信息变异无从知晓。隐藏在数据背后的那些问题,缠绕在可能准确的真实信息之中,有时候我们可能面对的是一堆“斩不断、理还乱”的数据符号,对耗费了巨大的人力、物力收集到手
5、的数据信息往往只能是将信将疑地去使用和分析,这反过来也影响了研究者对社会现实作出判断的信心。正因为抽样调查数据可能存在的诸多数据谬误与偏差,使得我们有理由认为,根据抽样调查数据来分析和研究社会,以期反映真实的社会现象及其背后的社会生活的逻辑,其本身就是一项极其危险的事业。然而,在这些非随机误差面前,难道我们真的就束手无策吗?其实,只要我们对不同类型的非随机误差稍加分析就不难看出,有些非随机误差也是可以完全加以控制的(比如录入误差);有些误差可以根据一些较为严密的逻辑推理加以检验判断,并通过二次访谈的方式加
6、以修正;此外,某些信息记录偏误的并非完全的杂乱和偶然,而是存在一定的系统性,比如一些特定被访、调查员的特征总是与某类特定的信息记录偏误相关联,某个特定的记录误差集中出现在某些特定地方区域中等等,归纳和总结这样的系统性的偏误模式,也是我们在分析处理过程中客观、准确地把握问题数据的有效方式。最大限度地减少那些“不可知”的误差对统计分析的影响,是每个利用数据来描述和分析社会现象与社会过程的研究人员都必须认真对待的问题。因此,从这个角度来讲,任何一种减少数据误差的工作就具有了极为重要的意义。为了尽量了解和减少研究
7、数据中的信息变异,目前大多数严格的实证研究都会对最后录入数据进行数据清理,即通过对特定变量的逻辑检验或数据模式分析,我们可以推断调查员在信息记录过程中可能产生的信息偏误,推断被访者所报告的信息之真伪程度,从而修正数据中的某些记录误差;同样,通过逻辑检验,我们还可以由此来检验测量工具的有效性;甚或在遇到与常规逻辑不相符合的真实现实时,还可以由此加深和扩展我们对社会现实的认知。本章的主要兴趣在于,如何通过有效方式,最大限度地降低数据中的非随机误差,通过分析清理GSS数据时遇到的实际情形,探索一些常见的、具有典
8、型意义的信息偏误模式,为将来实证调查过程和数据清理提供一种经验参考。第二节消除录入误差由于数据清理是依据电子存储格式的数据进行的,因此,在数据清理之前,我们首先就需要保证录入数据与问卷记录数据具有最大限度的一致性,为此数据清理的第一个步骤就是要基本上消除录入误差。数据录入主要是指将编码形式的被访者回答信息,从纸本记录格式转化为机读存储格式的数据形式的过程。一般来讲,有两种方式可以实现这一转化,即光电扫描和手工录入。光电扫描的优
此文档下载收益归作者所有