数据挖掘与宽带网络的运营

数据挖掘与宽带网络的运营

ID:33584915

大小:315.35 KB

页数:5页

时间:2019-02-27

数据挖掘与宽带网络的运营_第1页
数据挖掘与宽带网络的运营_第2页
数据挖掘与宽带网络的运营_第3页
数据挖掘与宽带网络的运营_第4页
数据挖掘与宽带网络的运营_第5页
资源描述:

《数据挖掘与宽带网络的运营》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、http://www.paper.edu.cn数据挖掘在宽带网络运营中的应用许杨,胡建华,周海河,杨忠昆明理工大学信息工程与自动化学院,昆明(650051)E-mail:xuykevin@sina.com摘要:通过对海量历史数据的有效挖掘,可以发现隐藏规律,进而在业务人员的识别下成为知识,为决策提供支持。本文来自作者在XX电信的项目工作实践;分析了宽带网络运营在电信业务中日益重要的作用;介绍了数据挖掘的常用聚类、分类和时序算法;并利用Microsoft提供的数据挖掘相关算法,对XX电信的宽带客户进行了聚类和细分;将细分结果有效的运用

2、到宽带客户的流失预警中;对收入的走势进行了预测和验证,有很高的实用价值。关键词:数据仓库;数据挖掘;聚类算法;时序算法;商业智能;决策支持0引言数据挖掘技术融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。它能够辅助决策者对困难业务问题做出明智决策,从而确定问题出现的原因,预测将要出现[1]的问题,指导企业经营和决策的实施。同时,市场竞争日益激烈,产品的同质化趋势越来越强,企业正在从“以产品为中心”的模式向“以客户为中心”的模式转移。客户聚类和细分作为CRM中进行客户分析的第一步,其效果的优劣必定直接影响着企业以后的每

3、一步运营政策。客户流失对企业的利益有多方面的损害,在争取新客户的同时必然要求决策者越来越重[2]视对老客户的挽留。基本上各个电信运营商到第四季度都会编制下年度的主要经营指标计[3]划,即年度预算。本文作者运用时序算法对历史收入情况进行分析,预测出未来收入,给出年度预算编制的一种有效方法。1宽带网络的强势以下是宽带网络客户数和收入在XX电信业务中的占比。图1宽带网络客户数和收入占比可以很容易的看出数量刚到12%的宽带客户贡献了20%左右的收入,而且自2000年以来,宽带客户数和收入一直保持着较高的增长势头。而与此相对应的是同期固定电话

4、业务的严重流失,以及精心包装的小灵通业务的徘徊不前。宽带网络俨然成为了电信最后也是最重要的战场。2算法介绍(1)聚类分析算法(K-Means):使用迭代技术将数据集中的事例分组为包含类似特征的分类。-1-http://www.paper.edu.cn步骤1:选择K个种子(对象)作为类的初始中心;步骤2:将每一个对象分配到离初始类中心最近的类;步骤3:计算新的类中心(将类中的每一个对象的坐标位置加以平均计算得到);步骤4:得到新的类中心后,转到步骤2,重复该过程;结束条件:每一个类的类中心位置几乎不发生变化为止(收敛)。(2)时序算法

5、(最小平方法):是一种回归算法,用于创建数据挖掘模型以预测连续列。时序模型的预测主要依据的是算法在创建模型时从原始数据集获得的派生趋势。将时间数列拟合成一直线或曲线,通过最小化误差的平方和找到该组数据的最佳函数匹配,得到时间数列随时间而变动的趋势。(3)决策树方法:主要用于数据分类。利用信息增益寻找数据中具有最大信息量的字段,建立决策树的根节点,再根据该字段的不同取值建立树的分支;在每个分支子集中重复建立树的下层节点和分支,即可建立决策树。接着进行适当的剪枝处理,把决策树转化为规则,并利用这些规则对新事物进行分析。3数据的选取和规整

6、选取XX电信某年5~11月的宽带客户收入、上网时长和上网次数的明细数据,5~11月的宽带客户套餐变更数据,11月的客户资料明细数据。由于原始数据量极其庞大,在不失全局特征的情况下,作者对数据先进行了随机抽样;然后对缺失数据进行了补全;把异常值数据进行转换;根据需要做了进一步汇总。建立数据仓库的立方体,可以使用的挖掘纬度[4]和相关属性如下表所示:表1挖掘纬度和相关属性客户背景客户名地址性别年龄客户联系联系号码联系人名地址邮编客户状态营销属性客户类别是否本年新增客户状态客户账户付费方式计费方式办理日期所属分公司失效日期在网时长离网时间

7、客户资源设备编号电话号码设备数有否端口速率接入方式交箱号商品渠道描述产品类型局向套餐客户行为各月包时收入各月超时收入各月增值收入各月上网时长各月上网次数各月总收入客户扩展消费层次活跃程度信用度4数据挖掘结果4.1聚类分析和客户细分首先使用聚类算法根据原始数据的特征得到初始的分类。发现有些纬度(属性)和客户分类的关联度很小,在最终的决策树的构造中就不包含这些纬度(属性)。发现特别需要某个纬度(属性),就要再次对纬度(属性)进行组合,直到找到比较明显的纬度(属性)组合为止,这个过程是一个多次反复的过程。确定下纬度(属性)的组合后,运用决

8、策树算法对数据进行分类。得到如下结果:-2-http://www.paper.edu.cn表2分类结果分类1正常状态的2M宽带公众客户,平均花费为103元,年龄在31岁左右,有一定的超时和增值收入,上网次数多,每次持续时间较长。分类2

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。