欢迎来到天天文库
浏览记录
ID:15258332
大小:1.69 MB
页数:61页
时间:2018-08-02
《客户流失分析(数据挖掘-第1讲)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、客户流失分析(数据挖掘-案例分析1)上海****通信技术有限公司MrJim(seniordba@sina.com)2014-02培训大纲一、统计知识二、案例背景三、商业理解四、数据理解与数据准备五、建立模型与模型评估六、模型应用七、总结CRISP-DMCRISP-DM(即跨行业数据挖掘标准流程”的缩写),是一种业界认可的用于指导数据挖掘工作的方法。指标变量获取从业务系统中取出的数据都是根据业务的需要考虑设计的,但往往不能达到取得良好数据挖掘结果的目的.这时需要对数据进行各种变换或者生成相关的衍生变量。下面介绍一些数据的常用变换形式
2、和衍生变量生成的常用方法。1、单变量的变换为了建立模型的便利,经常要对现有的变量进行某种形式的变化。这里总结出以下几个类型的单变量变换方法。指标变量获取连续变量向连续变量的转化。连续变量的变换通常有这样几种情况:①使数据便于计算和比较进行的变化,例如由单位是分变为单位是元、入网时间(时间型号变量)向在网时长的转化②为了修正数据的分布对数据进行适当的变化,例如对数变换、倒数变换等③使不同量纲和数量级的数据具有可比性的变化,即标准化变化。标准化变换通常有两种形式:一种是(原值-平均值)/标准差,另一种是(原值-最小值)/(最大值-最小
3、值),这种变换后取值范围在0~1之间。指标变量获取连续变量向离散变量的转化。一个变量取值是大是小,往往只是相对而言,分析中经常需要把一个连续取值变换为离散的分级变量以使业务上更好理解。连续变量向离散变量的转化可以完全基于业务来考虑,比如对客户的年龄分群,有些企业就是把18~40岁算作他们的青年客户。如果从统计学角度考虑,连续型变量向离散型变量转换主要是进行分箱变换,可以分为三种:①、按照等距离进行分箱②、按照等数量进行分箱③、按照分布进行分箱。例如把数据分为3段,小于平均数-3个标准差为第一段;大于平均数-3个标准差且小于平均数+
4、3个标准差为第二段;大于平均数+3个标准差为第三段。指标变量获取离散变量向连续变量的转化。对于有些分级类型的离散变量,可以将它理解为对连续变量做处理和建立模型。例如:对于二分的标志变量,也可以将它们转化为连续变量,即将标量的一个取值记为1,另一个取值记为0。这样,如果将1理解为1.0,将0理解为0.0。则这个标志变量可以理解为是分布在0.0~1.0之间的一个连续变量,只不过这个连续变量比较特殊,在观察到数据中只有0.0和1.0两个取值。离散变量向离散变量的转化。当离散变量的类别数特别多时,可以对它们适当的归并,例如将个数特别少的类
5、别统一归为其它就是典型的一种。另外,一个多分的离散变量也可以变为多个二分的标志变量,比如有一个离散变量是X,它有a,b,c三个取值,那么完全可以把它变为Xa,Xb,Xc三个变量,每个变量有1和0两个取值,而当X取值为a时,对应的情况是Xa取值为1,而Xb,Xc的取值都为0。指标变量获取2、衍生变量为了更清晰的说明衍生变量的生成,我们把数据分为两类:一类是横截面数据(指某一时点上收集到的数据),另一类是时间序列数据,一条记录代表一个时间点或者时间段上的取值,通常会有一个表示时间的变量。对横截面数据的衍生变量来说有以下一些常用的生成衍
6、生变量的方法:①、强度相对指标:有一个联系的两个指标之间相比的结果得到的指标。例如平均通话时长=总通话时长/总通话次数②、比例相对指标:用来反映总体中各组成部分所占比例的一个指标。指标变量获取2、衍生变量对时间序列数据有以下一些常用的生成衍生变量的方法:①、滞后类指标:对于时间序列数据,各条记录之间联系更加紧密,我们通常会取上一条记录(例如代表上月取值)及上年同期(例如去年同月),与当前记录相比得到环比增长率(例如本月值/上月值)和同比增长率(例如本月值/上年同期值);为了消除波动,有时我们还对多个时间段数值进行求和、平均等操作。
7、例如股市中常用的股价5日平均值,这类指标可以被归结为滞后类指标。②、汇总类指标:汇总类指标:求和,平均值,最小值,最大值,标准差,记录数等。指标变量获取3、趋势类指标对时间序列变量来说,一个重要的方面是看趋势。例如在这个案例中,我们特别关注每个客户的通话时长等指标的趋势,是变多,变少,还是随机性的波动?我们有理由猜测,如果一个客户的通话时长趋势是变少,那么这个客户流失的可能性会更大。但是如何衡量趋势呢?最朴素的想法是用最后一个月的取值除以第一个月的取值看增长率,但是这样会丢失很多中间月份的数据信息。我们还可以使用下面的方法来查看趋
8、势。即建立变量与时间的回归模型(例如在这个案例中,自变量为月份,因变量为通话时长),将自变量的回归系数作为趋势(也可以使用标化回归系数作为趋势),这个值大于0,则趋势是变多;这个值小于0,则趋势是变少。趋势的计算公式如下(以x作为月份,y代表通话时
此文档下载收益归作者所有