资源描述:
《关联规则挖掘综述》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、关联规则挖掘综述摘要:木文介绍了关联规则挖掘的研究情况,提出了关联规则的分类方法,对一些典型算法进行了分析和评[1]价,指岀传统关联规则衡量标准的不足,归纳出关联规则的价值衡量方法,展望了关联规则挖掘的未来研究方向。关键词:数据挖掘,关联规则,频集,OLAP1引言数据挖掘(DataMining),又称数据库中的知识发现(KnowledgeDiscoveryinDatabase),在最近几年里已被数据库界所广泛研究,其屮关联规则(AssociationRules)的挖掘是一个重要的问题。关联规则是发现交易数据库中不同商品(项)之间的联系,这
2、些规则找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响。发现这样的规则可以应用于商品货架设计、货存安排以及根据购买模式对用户进行分类。Agrawal等于1993年[1]首先提出了挖掘顾客交易数据库屮项集间的关联规则问题,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖掘规则的效率;对关联规则的应用进行推广。最近也有独立于Agrawal的频集方法的工作[1&19],以避免频集方法的一些缺陷,探索挖掘关联规则的新方法。同时随着OLAP技术的成熟和应
3、用,将OLAP和关联规则结合[20,21]也成了一个重要的方向。也有一些工作[6]注重于对挖掘到的模式的价值进行评估,他们提出的模型建议了一些值得考虑的研究方向。本文第二部分是对关联规则基本概念的介绍,提出了关联规则的分类方法;第三部分是对挖掘算法的介绍,从经典的apriori开始,然后描述了对该算法的优化拓展,接着讲述脱离apriori算法的方法,最后是多层、多维的关联规则挖掘;第四部分归纳出关联规则价值衡量方法,主要从两个方面进行考虑:系统客观层面和用户主观层面;最后展望了关联规则挖掘的未来研究方向。2关联规则的基本概念2.1基本概念
4、和问题描述设l={il,i2,…,im}是二进制文字的集合,其中的元素称为项(item)o记D为交易(transaction)T的集合,这里交易T是项的集合,并且Tfl。对应每一个交易有唯一的标识,如交易号,记作TID。设X是一个I中项的集合,如果XfT,那么称交易T包含X。一个关联规则是形如XPY的蕴涵式,这里X1I,Y1I,并且XCY二F。规则XDY在交易数据库D中的支持度(support)是交易集中包含X和Y的交易数与所有交易数之比,记为support(XI>Y),即support(XI>Y)=
5、{T:XfeYiT,Tin}
6、/
7、D
8、规则XbY在交易集中的可信度(confidence)是指包含X和Y的交易数与包含X的交易数之比,记为confidence(XPY),即confidence(XPY)=
9、{T:XEYIT,TID}
10、/
11、{T:XIT,TID)给定一个交易集D,挖掘关联规则问题就是产生支持度和可信度分别人于用户给定的最小支持度(minsupp)和最小可信度(minconf)的关联规则。2.2关联规则的种类我们将关联规则按不同的情况进行分类:1.基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变
12、量之间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中也可以包含种类变量。例如:性别二“女”二〉职业二“秘书”,是布尔型关联规则;性别二“女”二〉avg(收入)二2300,涉及的收入是数值类型,所以是一个数值型关联规则。2.基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次的;而在多层的关联规则中,对数据的多层性己经进行了充分的考虑。例如:IBM台式机
13、二〉Sony打印机,是一个细节数据上的单层关联规则;台式机=>Sony打印机,是一个较高层次和细节层次之间的多层关联规则。3.基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。在单维的关联规则中,我们只涉及到数据的一个维,如用户购买的物品;而在多维的关联规则中,要处理的数据将会涉及多个维。换成另一句话,单维关联规则是处理单个属性中的一些关系;多维关联规则是处理各个属性之间的某些关系。例如:啤酒二〉尿布,这条规则只涉及到用户的购买的物品;性别二“女”二〉职业二“秘书”,这条规则就涉及到两个字段的信息,是两个维上的一条关联规则。给
14、岀了关联规则的分类之后,在下面的分析过程中,我们就可以考虑某个具体的方法适用于哪一类规则的挖掘,某类规则又可以用哪些不同的方法进行处理。3关联规则挖掘的算法3.1经典频集方法Agrawal等于