电信行业中数据研究关联规则探究和应用

电信行业中数据研究关联规则探究和应用

ID:5236579

大小:30.50 KB

页数:9页

时间:2017-12-06

电信行业中数据研究关联规则探究和应用_第1页
电信行业中数据研究关联规则探究和应用_第2页
电信行业中数据研究关联规则探究和应用_第3页
电信行业中数据研究关联规则探究和应用_第4页
电信行业中数据研究关联规则探究和应用_第5页
资源描述:

《电信行业中数据研究关联规则探究和应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、电信行业中数据研究关联规则探究和应用  摘要:随着中国经济的迅猛发展带动了消费者的多元化电信服务需求,网络的发展,全球经济一体化步伐的加快刺激了消费者对电信增值服务的应用。保留老用户,吸引新用户成为电信企业的一项重要工作。而关联规则的算法在电信业中的这一过程应用作用也越来越重要。关键词:数据挖掘;关联分析;Apriori算法Abstract:withtherapiddevelopmentofChina’seconomyledtothediversificationofconsumertelecommunicationsser

2、vicedemand,thedevelopmentofthenetwork,thepaceofglobaleconomicintegrationtospeeduptostimulatetheapplicationoftelecomvalue-addedserviceconsumers.Keepoldcustomersandattractnewuserstobecomethetelecommunicationenterprisesisanimportantwork.Andassociationrulesalgorithmint

3、hetelecommunicationsindustryaprocessapplicationisalsomoreandmoreimportantrole.Keywords:datamining;Correlationanalysis;Apriorialgorithm9中图分类号:C37文献标识码:A文章编号:2095-2104(2013)一、数据分析在电信行业的应用电信业是典型的数据密集行业,随着电信体制改革的深化,电信业的竞争也日趋激烈。与其他行业相比,电信行业拥有更多的有关用户的数据,谁能正确分析这些数据所得到有用的知

4、识,谁就能更好地向用户提供服务,能够发现更多的商机,从而在竞争中获胜。但是电信行业数据量庞大,业务系统众多,数据庞杂,利用传统的信息获取手段,如手工报表的方式,信息的提供在速度,质量和范围上都大大滞后于信息的需求,因此必须引入新的技术来支持企业业务对信息的需求,数据挖掘技术能够成功应用有其必要性与可行性。数据挖掘,顾名思义就是从大量的数据中挖掘出有用的信息。即从大量的,不完全的,有噪声的,模糊的,随机的数据中提取隐含在其中的,人们事先不知道的,但又是潜在有用的信息和知识的过程。因此非常适合电信这样数据密集型的行业。利用该技术

5、可以帮助企业获取客户信息,争夺客户资源;分析市场状况,制定营销策略;收集话务记录,调整收费策略;识别诈欺行为,建立预警机制;审计财务状况,平衡财务收支;分析网络行为,优化网络管理。二、关联规则数据挖掘算法1、关联规则的挖掘步骤9已知数据库D,关联规则的挖掘问题就是产生置信度与支持度分别大于用户给定的最小值的所有关联规则。该问题可分两步来解:(1)产生所有支持度大于最小支持度D的项集,这些项集称为覆盖集。(2)对于每个覆盖集,产生所有大于最小置信度的规则。第二步相对而言较为容易,重点在第一步即找出强项集。由于不同的项集数目可达

6、2m个,如所涉及的数据库规模巨大,对所有的项集进行支持度的计算是不可能的。下面是一种具有代表性的求解算法Apriori。首先介绍与算法有关的概念与符号:项集的长度:项集中所有包含的项的个数。k项集:长度为k的项集。强k项集:支持度大于等于minsup的k项集。候选k项集:支持度可能大于等于minsup的k项集。Lk:所有强k项集的集合。Ck:所有候选k项集的集合。Apriori9算法经过多次扫描数据库,依次生成L1,L2,…,Lp(p为强项集的最大可能长度)第一遍扫描计算各个单项的支持度,删除支持度小于minsup的项集,进

7、而得到L1;在第k次扫描计算Lk时,并非计算所有k项集的支持度,而是根据任何强项集的子集必是强项集的原则,由前一次扫描得到的Lk-1生成。2、基于Apriori的算法优化和改进为了提高Apriori算法的效率,人们对该算法进行了优化和变形,其中算法的变化主要集中在两点:产生候选项集的方法和候选项集支持度的计算。以下是一些典型的优化算法:(1)基于HASH的算法:在Apriori算法产生候选项频繁集的过程中,如何高效产生频繁2-项集是提高数据挖掘性能的关键,DHP(Directhashingandpruning)算法很好地解决

8、了这一问题。使用该算法产生频繁项集的过程分几步:首先获得频繁1-项集并且产生候选2-项集的散列表;然后基于散列表产生候选2-项集,进而得到频繁2-项集并且产生3-项集的散列表…直到产生频繁K-项集。这种基于散列技术大大减少了需要考虑的K-项集的个数,尤其是2-项集,并且随着K的增加候选项集

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。