数据挖掘技术在提升电信业欠费控制能力上应用

数据挖掘技术在提升电信业欠费控制能力上应用

ID:36426347

大小:93.50 KB

页数:6页

时间:2019-05-10

数据挖掘技术在提升电信业欠费控制能力上应用_第1页
数据挖掘技术在提升电信业欠费控制能力上应用_第2页
数据挖掘技术在提升电信业欠费控制能力上应用_第3页
数据挖掘技术在提升电信业欠费控制能力上应用_第4页
数据挖掘技术在提升电信业欠费控制能力上应用_第5页
资源描述:

《数据挖掘技术在提升电信业欠费控制能力上应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、数据挖掘技术在提升电信业欠费预测及控制能力上的应用摘要:数据挖掘是目前发展迅速、应用广泛的一种从海量数据中抽取出潜在的、有价值的知识的过程。基于数据挖掘技术海量数据提取和知识发现的特点,本文主要基于数据挖掘技术在提升电信业欠费控制能力上进行分析与研究。基于电信客户是理性的和经济的这一基本前提,可以采用决策树,神经网络,关联规则分析等数据挖掘算法和统计分析技术,通过对电信客户的历史业务行为进行深入分析,从而预测其在未来时间的欠费倾向。关键字:数据挖掘欠费预测引言欠费问题是困扰通信行业的主要难题之一,长期居高不下的欠费用户量不仅关系到运营商的切身利益,更影响消费行业的平衡运作,欠费金额的激增不仅

2、是对运营商切身利益的损害,更造成了国有资产的潜在流失,使国家蒙受损失。因此,追讨欠费是当前通信行业亟待解决的问题。虽然,现有电信业务经营分析过程中,根据业务人员在工作中积累的经验,已对部分欠费数据作出分析,如:欠费金额、欠费用户数、当月欠费用户数、逾期欠费用户数等。但是,针对已发生欠费行为的用户做出分析,分析范围有限,不能达到控制欠费及预测欠费的目的,最终结果还是不停的追讨欠费。所以,做好电信欠费的防范工作,及早遏制欠费的发生才是当前一项紧迫且意义重大的任务,只有及时有效的预测欠费用户,才能有针对性的采取精准化营销措施,挽回这部分用户,进而控制欠费的发生,提升电信业自身对欠费用户的控制能力。

3、本文主要以欠费用户预测为研究主题,以提升欠费控制能力为目标,以神经网络算法和决策树分类算法作为理论支撑,展开深入研究。1、基本原理1.1设计思想研究过程主要以客户的历史业务行为为依据,预测其在未来时间的欠费倾向。在模型建设完毕后,只要输入该客户的相关数据变量即可根据模型输出结果判断其在未来时间的欠费概率,从而采取相关控制行为。如下图所示:输入欠费概率(0.87)输出29全球通347元/月…………长春男图一欠费用户预测模型效果图1.2算法原理基于上述设计思想,在具体应用过程中主要用到的数据挖掘算法有神经网络算法和决策树算法。神经网络算法的实施过程是由输入变量至输出变量的一个数据清洗沉淀过程。输

4、入层结构由输入变量(属性)来定。每个属性为一个输入结点。输出层结构由输出结果来定。有几个输出值,就有几个输出结点。隐藏层层数和结点数点的确定:主要靠经验。初始权值的确定:取决于对问题的了解和先验知识,哪部分作用强,权值就设得大些。训练过程:一个神经元连接权重调整的过程。前向传播阶段:输入层->隐层->输出层,反向传播阶段:计算输出的结果和目标结果的差距经输出层->隐层->输入层,反推神经元连接的权重调整,对每个输入样本重复上述步骤,直到网络收敛为止。决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分

5、析。本质上决策树是通过一系列规则对数据进行分类的过程。决策树算法构造决策树来发现数据中蕴涵的分类规则.如何构造精度高、规模小的决策树是决策树算法的核心内容。决策树构造可以分两步进行。第一步,决策树的生成:由训练样本集生成决策树的过程。一般情况下,训练样本数据集是根据实际需要有历史的、有一定综合程度的,用于数据分析处理的数据集。第二步,决策树的剪技:决策树的剪枝是对上一阶段生成的决策树进行检验、校正和修下的过程,主要是用新的样本数扼集(称为测试数据集)中的数据校验决策树生成过程中产生的初步规则,将那些影响预衡准确性的分枝剪除。1、模型设计2.1变量选取选取某月某地区欠费用户的业务行为数据作为研

6、究样本,采用神经网络算法思想挖掘欠费用户的业务行为特征。可建立以下变量:a)通话消费进度b)总消费进度c)最大/小缴费金额d)用户剩余免费时长e)呼叫主要集中的时段f)短信主要集中的时段g)查询话费次数h)在网时长i)通话消费频率j)总消费频率验证变量选取的代表性。如:我们对某一欠费用户在一个月中的通话行为进行日分析,可看出该用户的通话消费进度,如下图所示:图二欠费用户——通话消费进度图可见该用户属于月末突击消费的类型,该类型用户欠费可能性极大。下图为所选样本中某个用户的消费进度图,可见该用户属于消费较少的用户,且月末也有突击消费现象存在。图三消费进度图2.2利用神经网络算法挖掘欠费用户特征

7、将已准备好的变量集由输入层输入,经由隐含层对数据作出处理后,传到输出层。如果输出层输出的信号与期望的输出不符,则反向传播。误差的反向传播是将实际输出与期望输出之间的误差以某种形式通过隐含层再向输入层反传,并且在反传的过程中,将误差分摊给各层的所有单元,用来获得各层单元的误差信号,用这个误差信号去修正各单元的连接权,然后再进行信号的正向传递,这种信号正向传递和误差的反向传播的过程是周而复始地进行,连接权值也相应

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。