论关联规则挖掘综述

论关联规则挖掘综述

ID:21258877

大小:76.00 KB

页数:15页

时间:2018-10-20

论关联规则挖掘综述_第1页
论关联规则挖掘综述_第2页
论关联规则挖掘综述_第3页
论关联规则挖掘综述_第4页
论关联规则挖掘综述_第5页
资源描述:

《论关联规则挖掘综述》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、论关联规则挖掘综述蔡伟杰张晓辉朱建秋朱扬勇2(复旦大学计算机科学系上海200433)本文先容了关联规则挖掘的探究情况,提出了关联规则的分类方法,对一些典型算法进行了分析和评[1]价,指出传统关联规则衡量标准的不足,回纳出关联规则的价值衡量方法,展看了关联规则挖掘的未来探究方向。关键词数据挖掘,关联规则,频集,OLAP1引言数据挖掘(DataMining),又称数据库中的知识发现(Kno}是二进制文字的集合,其中的元素称为项(item)。记D为交易(transaction)T的集合,这里交易T是项的集合,并且TÍI。对

2、应每一个交易有唯一的标识,如交易号,记作TID。设X是一个I中项的集合,假如XÍT,那么称交易T包含X。一个关联规则是形如XÞY的蕴涵式,这里XÌI,YÌI,并且XÇY=F。规则XÞY在交易数据库D中的支持度(support)是交易集中包含X和Y的交易数和所有交易数之比,记为support(XÞY),即support(XÞY)=

3、{T:XÈYÍT,TÎD}

4、/

5、D

6、规则XÞY在

7、交易集中的可信度(confidence)是指包含X和Y的交易数和包含X的交易数之比,记为confidence(XÞY),即confidence(XÞY)=

8、{T:XÈYÍT,TÎD}

9、/

10、{T:XÍT,TÎD}

11、给定一个交易集D,挖掘关联规则新题目就是产生支持度和可信度分别大于用户给定的最小支持度(minsupp)和最小可信度(minconf)的关联规则。2.2关联规则的种类我们将关联规则按不同的情况进行分类:1.基于规则中处理的变量的种别,

12、关联规则可以分为布尔型和数值型。布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;而数值型关联规则可以和***关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中也可以包含种类变量。例如:性别=“女”=>职业=“秘书”,是布尔型关联规则;性别=“女”=>avg(收进)=2300,涉及的收进是数值类型,所以是一个数值型关联规则。2.基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。在单层的关联规则中,所有的变量都没有考虑到现实的数据

13、是具有多个不同的层次的;而在多层的关联规则中,对数据的多层性已经进行了充分的考虑。例如:IBM台式机=>Sony打印机,是一个细节数据上的单层关联规则;台式机=>Sony打印机,是一个较高层次和细节层次之间的多层关联规则。3.基于规则中涉及到的数据的维数,关联规则可以分为单维的和***的。在单维的关联规则中,我们只涉及到数据的一个维,如用户购买的物品;而在***的关联规则中,要处理的数据将会涉及多个维。换成另一句话,单维关联规则是处理单个属性中的一些关系;***关联规则是处理各个属性之间的某些关系。例如:啤酒=>尿布,这条规则只涉

14、及到用户的购买的物品;性别=“女”=>职业=“秘书”,这条规则就涉及到两个字段的信息,是两个维上的一条关联规则。给出了关联规则的分类之后,在下面的分析过程中,我们就可以考虑某个具体的方法适用于哪一类规则的挖掘,某类规则又可以用哪些不同的方法进行处理。3.关联规则挖掘的算法3.1经典频集方法Agraset),这些项集称为频集(FrequentItemset)。2)使用第1步找到的频集产生期看的规则。这里的第2步相对简单一点。如给定了一个频集Y=I1I2...Ik,k³2,Ij∈I,产生只包含集合{I1,I2,...,Ik}

15、中的项的所有规则(最多k条),其中每一条规则的右部只有一项,(即形如[Y-Ii]ÞIi,"1£i£k),这里采用的是[4]中规则的定义。一旦这些规则被天生,那么只有那些大于用户给定的最小可信度的规则才被留下来。对于规则右部含两个以上项的规则,在其以后的工作中进行了探究,本文后面考虑的是这种情况。为了天生所有频集,使用了递推的方法。其核心思想如下:(1)L1={large1-itemsets};(2)for(k=2;Lk-1¹F;k)dobegin(3)Ck=apriori-gen(Lk

16、-1);//新的候选集(4)foralltransactionstÎDdobegin(5)Ct=subset(Ck,t);//事务t中包含的候选集(6)forallcandidatescÎCtdo(7)c.count;(8)

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。