数据处理技术.doc

数据处理技术.doc

ID:56217826

大小:2.12 MB

页数:38页

时间:2020-03-21

数据处理技术.doc_第1页
数据处理技术.doc_第2页
数据处理技术.doc_第3页
数据处理技术.doc_第4页
数据处理技术.doc_第5页
资源描述:

《数据处理技术.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、数据处理技术一、数据标准化技术:1、Min-max标准化min-max标准化方法是对原始数据进行线性变换。设minA和maxA分别为属性A的最小值和最大值,将A的一个原始值x通过min-max标准化映射成在区间[0,1]中的值乂,其公式为:新数据二(原数据■极小值)/(极大值■极小值)2、z-score标准化这种方法基于原始数据的均值(mean)和标准差将A的原始值x(standarddeviation)进行数据的标准化。使用z-score标准化到x!oz-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。新数据二(原数据■均值)/标准

2、差spss默认的标准化方法就是z-score标准化。用Excel进行z-score标准化的方法:在Excel中没有现成的函数,需要自己分步计算,其实标准化的公式很简单。步骤如下:%1求出各变量(指标)的算术平均值(数学期望)Xi和标准差si;%1进行标准化处理:zij二(xij-xi)/si其中:Zij为标准化后的变量值;xij为实际变量值。%1将逆指标前的正负号对调。标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。3、Decimalscaling小数定标标准化这种方法通过移动数据的小数点位置来进行标准化。小数点移动多少位取决于属性A的取值中的最大

3、绝对值。将属性A的原始值x使用decimalscaling标准化到xP勺计算方法曰.疋.x-x/(10*j)其中,j是满足条件的最小整数。例如假定A的值由・986到917A的最大绝对值为986,为使用小数定标标准化,我们用1000(即,j=3)除以每个值,这样,・986被规范化为-0.986o注意,标准化会对原始数据做出改变,因此需要保存所使用的标准化方法的参数,以便对后续的数据进行统一的标准化。除了上面提到的数据标准化外还有对数Logistic模式、模糊量化模式等等:4、对数Logistic模式新数据=1/(1+"(-原数据))5、模糊量化模式*(X・(极新数据=l/2+l/2

4、sin[龙3.1415/(极大值■极小值)大值■极小值)/2)];X为原数据。二、数据清洗1>定义数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。(1)一致性检查—致性检查(consistencycheck)是根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据。例如,用1-7级量表测量的变量出现了0值,体重出现了负数,都应视为超出正常值域范围。SPSS、SAS、和Excel等计算机软件都能够根据定义的取值范围

5、,自动识别每个超出范围的变量值。具有逻辑上不一致性的答案可能以多种形式出现:例如,许多调查对象说自己开车上班,又报告没有汽车;或者调查对象报告自己是某品牌的重度购买者和使用者,但同时又在熟悉程度量表上给了很低的分值。发现不一致时,要列出问卷序号、记录序号、变量名称、错误类别等,便于进一步核对和纠正。(2)无效值和缺失值的处理由于调查、编码和录入误差,数据中可能存在一些无效值和缺失值,需要给予适当的处理。常用的处理方法有:估算,整例删除,变量删除和成对删除。估算(estimation)o最简单的办法就是用某个变量的样本均值、中位数或众数代替无效值和缺失值。这种办法简单,但没有充分考

6、虑数据中已有的信息,误差可能较大。另一种办法就是根据调查对象对其他问题的答案,通过变量之间的相关分析或逻辑推论进行估计。例如,某一产品的拥有情况可能与家庭收入有关,可以根据调查对象的家庭收入推算拥有这一产品的可能性。整例删除(casewisedeletion)是剔除含有缺失值的样本。由于很多问卷都可能存在缺失值,这种做法的结果可能导致有效样本量大大减少,无法充分利用已经收集到的数据。因此,只适合关键变量缺失,或者含有无效值或缺失值的样本比重很小的情况。变量删除(variabledeletion^如果某一变量的无效值和缺失值很多,而且该变量对于所研究的问题不是特别重要,则可以考虑将

7、该变量删除。这种做法减少了供分析用的变量数目,但没有改变样本量。成对删除(pairwisedeletion)是用一个特殊码(通常是9、99、999等)代表无效值和缺失值,同时保留数据集中的全部变量和样本。但是,在具体计算时只采用有完整答案的样本,因而不同的分析因涉及的变量不同,其有效样本量也会有所不同。这是一种保守的处理方法,最大限度地保留了数据集中的可用信息。采用不同的处理方法可能对分析结果产生影响,尤其是当缺失值的出现并非随机且变量之间明显相关时。因此,在调查中应当尽量避免出

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。