变精度粗糙集属性约简在电信行业中应用

变精度粗糙集属性约简在电信行业中应用

ID:6070477

大小:28.50 KB

页数:6页

时间:2018-01-02

变精度粗糙集属性约简在电信行业中应用_第1页
变精度粗糙集属性约简在电信行业中应用_第2页
变精度粗糙集属性约简在电信行业中应用_第3页
变精度粗糙集属性约简在电信行业中应用_第4页
变精度粗糙集属性约简在电信行业中应用_第5页
资源描述:

《变精度粗糙集属性约简在电信行业中应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、变精度粗糙集属性约简在电信行业中应用  【摘要】针对电信行业客户信息属性太多、处理方法少、效果差的现状,引入粗糙集理论预处理客户基础信息。并以核心客户离网预警模型为例,给出变精度粗糙集属性约简算法,筛选出模型关键变量,借助MATLAB工具结合逻辑回归理论确定变量权重,利用指标判别法计算客户离网概率,最终达到预警核心客户离网的目的。与常用的聚类分析法确定关键变量相比,模型查准率提高50%,这也证明了粗糙集理论在电信行业数据挖掘的可行性。【关键词】属性约简变精度粗糙集核心客户关键变量中图分类号:TN929.5文献标识码:A文章编号:1006

2、-1010(2013)-15-0067-031研究背景电信行业竞争日趋激烈,各运营商对核心客户这一重要利润点发起了激烈的竞争。核心客户离网预警模型的建模思路一般为:找出特征指标—建立模型—评估模型—应用模型—优化模型。从客户的基本类信息、行为类信息、消费信息等多种属性指标中选取特征指标是建模的第一步,在模型效果中起决定性作用。目前多采用统计知识或专家经验方法,但是方法少、成本高、效果差的问题仍然存在。6粗糙集理论是一种新的数据挖掘工具,用粗糙集理论的属性约简算法对样本信息进行预处理,主要是为了解决高维数据计算的复杂性和准确性问题,消除冗

3、余和不相关的属性对计算过程和最终结果造成的影响。而变精度粗糙集属性约简则是在允许一定错误率下,根据需要灵活得到约简属性。本文将利用粗糙集理论知识,构造变精度粗糙集属性约简算法,为核心客户离网预警模型关键变量的选取提供一种新算法。2粗糙集相关概念属性约简是粗糙集理论[1-4]的核心内容之一。属性约简从数学的角度考虑,就是有P维数据X=(x1,x2,…,xp),通过某种方法,得到新的数据X,k≤p,新的数据在某种评判标准下,最大限度地保留原始数据的特征。模糊等价关系[5-8]:R是X上的模糊关系,则R是max-传递的,即在实际运用中,往往称

4、满足上述等价条件的模糊等价关系为等价关系。β-下近似:设(X,R)是一近似空间,β∈(0.5,1],对于任一子集,A的β-下近似与β-上近似为:称为变精度粗糙集,其中β为错误可接受错误分类率。蕴含算子[4,9]:设和分别是[0,1]上的t-模与t-余模[9],定义如下两个算子:63变精度粗糙集属性约简的应用3.1算法介绍(1)宽表数据量:6000条记录(核心客户),包含1500条离网用户和4500条未离网用户。每个对象的条件属性(统计月份、用户品牌、消费波动、基本套餐费、呼叫异网客服电话、主被叫消费占比、投诉频次等相关指标)p个,决策属

5、性(是否离网)1个。训练样本集要求为历史数据,且拥有明确的是否离网标签,目的是保证验证结果的准确性。(2)时间窗口:3+1月,验证数据采用历史前三个月客户数据作为基础信息,第四个月用户是否离网为结果验证模型。如研究客户3、4、5月的通讯行为,利用模型预测用户6月份离网情况。(3)运行环境:MATLAB(4)建模过程:1)利用变精度粗糙集属性约简选取关键指标;2)基于关键指标,应用指标判别法建模;3)输出模型结果。第一步:粗糙集选取关键变量算法详情1)计算所需用到的所有的模糊等价关系R和;2),计算;3)计算区分矩阵,并让;64)判断是否

6、存在约简。若存在,转入第5步;若不存在,输出“不存在约简”;5)把区分矩阵中出现频率最大的属性加入Reduct中,并删除所有与Reduct交集非空的cij;6)如果还有非空的cij,则返回第5步,直到所有的cij都为空集;7)判断Reduct中是否有不必要属性,若有则删除;若无则转第8步;8)得出约简Reduct。其中,R为模糊等价关系;ak为条件属性;D为决策属性;Xi为样本量;α为变精度值;Reduct为约简属性结果;区分矩阵为:3.2模型效果为了说明模型运行效果,分别采用变精度粗糙集属性约简方法和聚类分析法分析对象属性,确定关键变

7、量。其余步骤完全相同,均按照算法介绍中描述的思路建模。结果如表1所示:4结束语利用指标判别法建立核心客户离网预警模型,建模前应用变精度粗糙集属性约简算法将对象预处理,筛选出关键变量作为模型输入变量。与目前常用的数据挖掘方法(聚类)得到的关键变量相比,模型效果有明显的提高。另外,设计的算法可移植性性强,具有普遍适用性。6变精度粗糙集属性约简为需要选择关键变量的模型提供了解决方案,目前这方面的应用还处于尝试阶段,不过应用范围明显在扩大,适用于校园市场学生识别、垃圾短信识别等各类涉及变量选取、对象分类的模型。根据给出的属性约简算法,当精度值取

8、0.45时,运行5000个包含36个条件属性的对象,最终得到14个属性作为模型输入的关键变量,总耗时390分钟,模型效果很好。参考文献:[1]GLLiu,WZhu.Thealgebraicstructure

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。