欢迎来到天天文库
浏览记录
ID:9863048
大小:47.00 KB
页数:6页
时间:2018-05-12
《数据挖掘论文关联规则论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、数据挖掘论文关联规则论文摘要:电信行业是最早采用数据挖掘技术的行业之一。数据挖掘中,关联规则的挖掘是最为典型的工作之一,利用相关算法可以进行电信新业务消费群体分析等,帮助运营企业提高市场占有率。关键词:数据挖掘;关联规则;话单分析algorithmandapplicationofassociationrulemininginbillingmarketanalysisganlili(xingtaiuniversity,xingtai054000,china)abstract:telecomisoneoftheindust
2、rythatusesdataminingtechnolgyfirstly.indataminingfield,associatonruleminingisthemostrepresentativeone,andwithcorrelationalgorithmwecananalysecustomergroupsoftelecomnewservice,whichhelpstelecomoperatorsincreasemarketshare.keywords:datamining;associationrule;aprio
3、rialgorithm;billinganalysis一、关联规则挖掘算法概述关联规则的形式定义为{x1,x2,….声明….,xn}->y,这意味着如果x1,x2,….,xn全部在事务集合内,那么y也可能在事务中。注意这里用“可能”意味着仅仅是可能,而不是确定。同样注意存在的可能是一个项目集,而不是单个的项目。在全部x1到xn的事务中发现y的可能性叫做置信度。规则在所有的事务中保持的门限百分比叫做支持度。在关联规则系统中,规则本身是“如果条件怎么样,那么结果或情况就如何”的简单形式,可以表示为“a=>b”关联规则,它包
4、括两个部分:左部a称为前件,右部b称为后件。前件可以包括一个或多个条件,在某个给定的正确率限制情况下,要使后件为真,前件中的所有条件必须同时为真。后件一般只包含一种情况,而不是多种情况。支持度的计算方法:,显然只有支持度较大的规则才是较有价值的规则;置信度的计算方法:,显然只有置信度比较高的规则才是比较可靠的规则。一般地,关联规则可以提供给我们许多有价值的信息,在关联规则挖掘时,往往需要事先指定最小支持度与最小置信度。关联规则挖掘实际上真正体现了数据中的知识发现。如果一个规则满足最小支持度,则称这个规则是一个频繁规则;
5、如果一个规则同时满足最小支持度与最小置信度,则通常称这个规则是一个强规则。关联规则挖掘的通常方法是:首先挖掘出所有的频繁规则,再从得到的频繁规则中挖掘强规则。二、关联规则挖掘算法在话单的市场分析中的应用电信运营商在日常的市场营销过程中,经常会遇到这样一些问题:如何能更好的理解客户,挽留有价值的用户,如何设定合理的资费政策吸引不同行业的人、不同年龄段的人、使用习惯大相迥异的客户群体套餐该如何制定。这些问题都是影响公司经济运营的重要因素。为了更好的掌握客户的特点及合理的制定套餐资费政策,可以利用关联规则挖掘来发现用户与通信
6、行为间的关系,分析哪些特定的群体具有哪些共同的通信习惯。电信运营商通常都不是提供单一产品或服务供客户消费,而是综合的产品或服务组合供用户选择,这就是我们常见的套餐消费。通过对产品或服务的关联分析可以发现产品或服务之间关联规则,发现什么产品或服务的集合会使客户一起消费,由此可以向客户推荐或者把相关产品或服务组合成一个套餐,从而在促进产品销售的同时也为客户提供了更好的服务。电信行业在增值业务领域发展迅猛,各种增值平台为用户提供丰富多彩的娱乐和信息服务。当一个新的平台上线后,首先面临的一个问题是如何定位其消费群体,以便制定有
7、针对性的宣传策略和销售政策。通常系统在运行一段时间后,用户不断地加入和使用,系统中用户使用情况的原始数据逐渐积累下来。通过对原始数据使用关联规则挖掘算法,我们可以准确的定位出系统的消费群体。为更好的进行关联数据挖掘,我们对话单数据表中的基础信息进行基于概化的数据预处理,具体的概化方法如下所示。a)用a表示漫游信息,把漫游情况概化为a1漫游,a2非漫游。b)用b表示通话时间信息,把通话时间段概化为b1(9:00-17:00)b2(17:00-22:00)b3(22:00-9:00)c)用c表示通话时长信息,把通话时长段概
8、化为c160秒c260秒-600秒c3600秒以上d)用d表示短消息次数统计,把短消息月发送量概化为d1(10条以下)d2(10条到50条)d3(50条以上)e)用e表示长途通话量统计,把长途月通话量概化为e120分钟以下,e220分钟到100分钟;e3100分钟以上f)用f表示是否使用过此项新业务,概化为f1使用过,f2未使用过
此文档下载收益归作者所有