Clemitine数据的基本分析.ppt

Clemitine数据的基本分析.ppt

ID:56948040

大小:17.50 MB

页数:47页

时间:2020-07-21

Clemitine数据的基本分析.ppt_第1页
Clemitine数据的基本分析.ppt_第2页
Clemitine数据的基本分析.ppt_第3页
Clemitine数据的基本分析.ppt_第4页
Clemitine数据的基本分析.ppt_第5页
资源描述:

《Clemitine数据的基本分析.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第5章Clemitine数据的基本分析介绍数据挖掘往往从数据的基本分析开始,它是了解数据分布特征,把握数据间相关性强弱的基本手段,也是后续模型选择和深入分析的基础。5.1数据质量探索数据质量的探索主要包括数据缺失问题、数据离群点和极端值两大方面,具体包括数据中有效样本比例的计算、变量中用户缺失值和空白比例的计算和处理、数据离群点的诊断和处理。数据质量探索应通过Output卡中的DataAudit节点实现。5.1.1数据的基本描述与质量探索首先读入SPSS数据Telephone.sav数据,然后建立Type节点说明变量角色,指定“流失”

2、变量为输出变量,其他均为输入变量;之后,选择Output卡中的DataAudit节点并将其连接到数据流的相应位置上,进行参数设置。变量诊断结果DataAudit节点的计算结果5.1.2离群点和极端值的修正由于该份数据的质量问题主要出在离群点和极端值上,可以考虑对它们进行修正。Clemitine对离群点和极端值的修正,应下拉Action列并选择其中的修正方法。这里,首先对有离群点和缺失值的变量选择恰当的修正方法,然后,选择需要修正的变量,选择Selectfieldsonly选项,表示仅对所选择的变量中的离群点和极端值进行修正。5.1.3

3、缺失值的替补5.1.4数据质量管理的其他功能一、保留高质量的变量DataAudit节点还可以保留质量高的变量,自动剔除那些质量不高的变量。点击Generate下的FilterNode子菜单。二、保留有效样本DataAudit节点还可以保留有效的样本,自动剔除无效样本。这里的无效是指系统缺失值、空串或空白。选择Generate下的SelectNode子菜单。5.2基本描述分析数据分析通常是从基本描述分析开始的。通常对数值型变量,应计算基本描述统计量以准确把握变量的集中趋势和离散程度。描述集中趋势的统计量一般有均值、中位数、众数等,离散程

4、度的统计量包括方差、标准差、极差等。为分析数值型变量之间的相关程度,还可以计算简单相关系数,或者绘制散点图。概念介绍1.中位数(Median)统计学名词,是指将统计总体当中的各个变量值按大小顺序排列起来,形成一个数列,处于变量数列中间位置的变量值就称为中位数,用Me表示。当变量值的项数N为奇数时,处于中间位置的变量值即为中位数;当N为偶数时,中位数则为处于中间位置的2个变量值的平均数。(注意:和众数不同,中位数不一定在这组数据中。)2.众数(Mode)统计学名词,在统计分布上具有明显集中趋势点的数值,代表数据的一般水平(众数可以不存在

5、或多于一个)。修正定义:是一组数据中出现次数最多的数值,叫众数,有时众数在一组数中有好几个。用M表示。理性理解:简单的说,就是一组数据中占比例最多的那个数。3.方差是各个数据与平均数之差的平方的平均数。在概率论和数理统计中,方差(英文Variance)用来度量随机变量和其数学期望(即均值)之间的偏离程度。在许多实际问题中,研究随机变量和均值之间的偏离程度有着很重要的意义。4.标准差(StandardDeviation),也称均方差(meansquareerror),是各数据偏离平均数的距离的平均数,它是离均差平方和平均后的方根,用σ表

6、示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的,标准差未必相同。5.极差是指总体各单位的标志值中,最大标志值与最小标志值之差。它是标志值变动的最大范围。极差也称为全距或范围误差,它是测定标志变动的最简单的指标。换句话说,也就是指一组数据中的最大数据与最小数据的差叫做这组数据的极差。极差英文为range,简写为R,表示为:R=Xmax-Xmin。移动极差(MovingRange)是其中的一种。5.2.1计算基本描述统计量对电信客户数据的分析目标是计算基本服务累计开通月数、上月基本费用、上月限制性免费服务项目

7、的费用、无线服务费用的基本描述统计量,计算上述变量与年龄、家庭收入(百元)、家庭人口之间的简单相关系数已反映变量之间的相关性。使用Output卡中的Statistics节点。计算机结果可以看出,以开通月数为例,它与年龄和收入都有相关性,它们简单相关系数虽然分别为0.401和0.195,但从统计检验的角度看,有95%以上的把握认为它们之间是非0相关。开通月数与家庭人口数呈现负弱相关。可选择Generate菜单中的Filter子菜单挑选出相关性较高的变量5.2.2绘制散点图数值型变量之间相关性的分析还可以通过散点图直观观察。这里观察基本费

8、用和年龄之间的相关性,可选择Graphs卡中的Plot节点并将其连接到数据流恰当的位置上。5.3变量分布探索统计建模中常常要求变量服从正太分布,如果不能满足分布要求,应对变量进行适当的转换处理。Clementine提供了

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。