数据处理与分析.ppt

数据处理与分析.ppt

ID:58170601

大小:256.50 KB

页数:51页

时间:2020-09-05

数据处理与分析.ppt_第1页
数据处理与分析.ppt_第2页
数据处理与分析.ppt_第3页
数据处理与分析.ppt_第4页
数据处理与分析.ppt_第5页
资源描述:

《数据处理与分析.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据处理(数据)处理就是把调查中收集到的数据转换为适合汇总制表和数据分析的形式。数据收集完毕之后,估计之前对数据进行加工处理的所有活动:主要包括数据的编码、录入、审核、插补、离群值的检测和处理等。最后生成一个为进一步分析用的数据库。1.编码编码是给问题的每项答案赋予一个数值代码,以便于数据录入和作进一步处理的过程。编码具体方法很多,包括:问卷中已预先编码;在数据收集完毕之后进行手工编码;通过文本识别软件进行自动编码(即借助软件给一串字符赋予一个代码)。2)数据录入数据录入是将回答转化成可机读的形式。采用

2、纸张式收集数据的方法时,数据录入是在数据收集完毕之后(通常是在对问卷进行一些“梳理”和初步审核之后)进行。采用计算机辅助数据收集方法时,数据录入是在数据收集的同时完成的。下面几种方法可以提高数据录入的效率:采用计算机辅助数据收集方法;对纸张式问卷进行光电扫描;对纸张式问卷进行预先编码。3.审核审核是应用各种检查规则来辨别缺失、无效或不一致的录入,这些会导致数据记录的潜在错误。审核的目的就是要保证调查最后所得的数据的完整性、一致性和有效性(包括逻辑性)。审核主要可分为三类:即有效性审核、一致性审核与分布审

3、核。有效性审核和一致性审核是对单张问卷进行的审核;分布审核则是对全部问卷或部分问卷的数据一起进行审核。通常,审核规则的确定基于以下几个方面:关于调查主题的专业知识;问卷和问题的结构;其它相关的调查或数据;统计理论(如离群值的检测方法)。数据收集完毕后,对审核失效,通常按下列方法进行处理:将其剔除;进行插补;设立特殊代码。有些时候,一条记录(或整份问卷)不符合多条审核规则的要求,或者不符合少数几条关键审核规则的要求,从而使得后续的处理失去意义。在这种情况下,通常可以将这些记录剔除,作为无回答处理,同时将赋

4、予各被调查单元的权数进行调整。对大多数审核失效都应该加以标示,留待作插补处理。对于有些项目,我们可以用特殊代码标示的方法,对确认为审核失效而不可接受的值或无效的空白加以保留。选择性审核选择性审核基于这样一种思想:即只有那些“关键”的审核失效,而不是所有的审核失效,才需要采取相应的处理措施。选择性审核一般适于定量数据。对审核失效进行选择性审核时,可能需要对被调查者进行再访,但对于那些需要进一步处理和插补的记录的审核失效除外。审核的指导方针审核的目标是:-更好地理解数据和数据处理过程;-检查问卷;-回访被调

5、查者;-检出错填或漏填的数据;-删除无效记录;-分离需要插补的记录。审核的准则:审核不仅对整理数据有用,而且审核失效发生率不论是对当前调查的质量度量,还是对将来调查的改进都很有用,它能提供调查中有关数据处理的信息;不论什么时候,开始一项调查时,总是要对数据做一些假定,审核时可以检验这些假定的合理性。例如,可能很明显,有些领域的审核规则太严,或者有些类型的审核失效太频繁,这些情况表明审核规则可能不太合适(或问卷可能存在问题);审核应该分阶段进行;审核工作应由对本次调查的主题、问卷的设计和数据分析有专业知识

6、、并且有类似调查经验的人员来进行;各阶段所进行的审核不应与其它阶段的审核相抵触;应该将审核的信息和审核工作对调查数据的影响通知数据的用户。4.插补插补就是解决在审核过程中辨别出来的数据缺失、无效与不一致等问题的过程。插补是对审核过程中发现的所有缺失信息的记录进行补充或用合适的数值进行替代,确保得出内在一致的记录。插补方法可以归为两类—随机插补和确定性插补。确定性插补,对于特定的被调查的数据,可能的插补值只有一个。随机插补则含有随机因素因此,每次得出的插补值可能会不一样。几种确定性插补方法如下:-推理插补

7、;-均值插补;-比(率)/回归插补;-序贯热平台插补;-序贯冷平台插补;-最近邻值插补。 每一种确定性的插补方法都对应着一种随机插补方法。插补定量数据时,用确定性的方法得出一个插补值,加上从某个适宜的分布或模型产出的一个残差作为最后的插补值,就成为随机插补。随机插补能更好地保持数据集的频数结构,保持比确定性插补方法更真实的变异性。除供者插补方法外,下面介绍的方法可逐项进行插补。所谓的供者插补方法,就是用一个供者来插补一个受者的所有缺失的或不一致的数据。4.1推理插补推理插补:缺失的或不一致的数据能通过推

8、断确定。通常,这种推理是根据问卷上其它回答项的模式来进行的。下面简述一些常用的插补方法。对所有这些插补方法,最好是把类似的记录归为一组,就象进行无回答权数调整时一样,这些组称为插补类。4.2均值插补用均值插补,缺失或不一致的值可用插补类的均值来代替。对缺失数据,用均值插补相当于对同一插补类中的所有被调查者使用相同的无回答权数进行调整。均值插补会得到较好的点估计,但由于在插补类均值这一点形成一个人为的“峰值”,从而破坏了分布状态和变量之间的关

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。