利用clementinec5.0模型预测cdma

利用clementinec5.0模型预测cdma

ID:22953117

大小:53.00 KB

页数:7页

时间:2018-11-02

利用clementinec5.0模型预测cdma_第1页
利用clementinec5.0模型预测cdma_第2页
利用clementinec5.0模型预测cdma_第3页
利用clementinec5.0模型预测cdma_第4页
利用clementinec5.0模型预测cdma_第5页
资源描述:

《利用clementinec5.0模型预测cdma》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、利用ClementineC5.0模型预测CDMA摘要:该文针对目前电信行业中一个日益严峻的问题:客户离网进行研究,通过收集客户的基本数据、消费数据和缴费行为等数据,建立客户流失预测模型,进行客户流失分析及预测。通过对大量相关技术和统计方法的研究,最终确定了clementine的C5.0模型作为电信客户流失的预测模型。此模型对客户流失预测有较高的准确性,为电信经营分析系统作了有益的尝试与探索。  关键词:数据挖掘;客户流失;统计分析;C5.0模型;CDMA客户  1概述  以中国电信云南某公司的项目支撑为基础,从统计数据来看,维持5%的老用户增长,给电信公司带来的利润将远远超过85%

2、,而要想把一位非电信用户发展成客户,其成本将比保留一位老客户的成本高得多,统计数据表明成本是4倍左右,此时,客户对电信的忠实程序也将发生强烈的变化,由此给企业造成的损失将大大增加。从项目的实施情况来看,为了保证成功向客户推销运营商的产品,多数人都只愿意向老客户推销。因为由此付出的代价比用户要小得多,成功率也要高得多。通过这些数据我们可以看到防范老客户的流失相比发展新用户来说就显得尤为重要了,这也是普遍企业最为关注的问题之一。  2研究现状及C5.0模型特点  在我们国内,很多运营商为了应对市场的竞争,多数都己经建立了“电信经营分析系统”,这在一定程序上为深层次的数据分析提供了良好的

3、数据处理分析平台。而目前国内在数据利用上确远远不及国外的层次深,国内的数据应用主要集中在固定报表处理、查询分析和个人的主观探索,在更高领域的应用如数据挖掘还不太成熟,更谈不上深层次的应用。而这些在国外,很多知名的电信运营商却已经能够很好地利用数据挖掘技术,以便通过建立客户流失的模型,提升利润空间及对一些流失概率比较高的客户进行有针对的保留工作,这样做的目的可能有效地控制入网用户的流失。  Clementine作为一个数据挖掘软件,给运营商创造了很好的数据处理应用平台,在此平台下,运营商可以有效地使用一些商业技术准确、快捷地建立预测的模型,而后把由此模型生成的数据使用在推销应用领域。

4、参照行业执行标准CRISP-DM模型,我们可以有效地改进决策过程,这不仅可以数据到更优商业成果的数据挖掘。而且还可以这样可以分析出哪些属性是影响客户流失的重要因素。现在比较流行的流程包括决策树、神经网络、逻辑回归、聚类关联性分析等。本文选择的是C5.0模型节点来进行电信的客户流失预测。该模型的工作原理是根据在每个级别提供最大信息收获的字段分割样本,目标字段必须为分类字段,允许进行多次多于两个子组的分割。它通常会根据不同的字段再次分割由第一次分割定义的每个子样本,且此过程会重复下去直到无法继续分割子样本。  C5.0可以生成两种模型:  1)决策树是对由算法建立的分割的简单描述,每个

5、终端(或“叶”)节点可描述训练数据的特定子集,而训练数据中的每个观测值都完全属于树中的某个终端节点。  2)规则集则是尝试对单个记录进行预测的一组规则,规则集源自决策树,并且在某种程度上表示在决策树中建立的经简化或提取的信息版本。对于所存在的问题,例如缺失数据和大量输入字段,C5.0模型十分稳健,通常不需要花费很长的训练时间用于估计。同时C5.0模型与其他模型类型相比更容易理解,解释起来更简明易懂。  3建构并应用C5.0模型  在clementine中使用C5.0模型进行电信客户流失预测的过程包括:找到数据源:本例中数据源为基于Excel的电子表格,打开Clementine,在对

6、话框中选择数据源项,可以直接双击我们要使用的Excel进行编辑,在导入文件中选择要用的数据源。然后在选项板中选择字段节点,进行类型编辑,设置客户流失项为输出项。接下来在建模里根据需要选择合适的特征选项,此时,该节点会根据设置的条件(如缺失的百分比)筛选出可删除的字段,如预测变量,依据我们的挖掘需求,保留的预测变量,并按重要性进行排序。生成过滤节点后,在里面可看到保留了对输出(也就是客户的流失标志)有影响的项,去掉了对输出没什么影响的项。总的挖掘过程和过滤如图1-图2所示。  接着我们在模型里面选择C5.0模型,编辑模型的选项,有四种用于构建C5.0模型的训练方法:1.输出类型:指定

7、希望生成的结果模型是决策树还是规则集,根据CDMA客户的性质和要预测的是流失项,在此选用决策树模型。2.群体字符:如果选中此选项,C5.0将试图组合输出字段中具有相似样式的符号值。3.使用推进:这是C5.0算法的一个特殊方法用于提高其准确率。工作原理是在序列中构建多个模型,第一个模型按常规方式进行构建;构建第二个模型时,将焦点集中于由第一个模型误分类的记录;构建第三个模型时,将焦点集中于第二个模型的错误,依此类推。最后,通过将整个模型集应用到观测值,并使用加权投票过程

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。