大型数据库中的关联规则挖掘

大型数据库中的关联规则挖掘

ID:41225740

大小:358.06 KB

页数:33页

时间:2019-08-19

大型数据库中的关联规则挖掘_第1页
大型数据库中的关联规则挖掘_第2页
大型数据库中的关联规则挖掘_第3页
大型数据库中的关联规则挖掘_第4页
大型数据库中的关联规则挖掘_第5页
资源描述:

《大型数据库中的关联规则挖掘》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第四章关联规则挖掘关联规则挖掘:从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。应用:购物篮分析、分类设计、捆绑销售等“尿布与啤酒”——典型关联分析案例采用关联模型比较典型的案例是“尿布与啤酒”的故事。在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,超市也因此发现了一个规律,在购买婴儿尿布的年轻父亲们中,有30%~40%的人同时要买一些啤酒。超市随后调整了货架的摆放,把尿布和啤酒放在一起,明显增加了销售额。同样的,我们还可以根据关联规则在商品销售方面做各种促销

2、活动。一、基本概念给定:项的集合:I={i1,i2,...,in}T={t1,t2…tn}是数据库中事务的集合,每个事务ti则是项的集合,使得则为T中的关联规则。其中并且规则度量:支持度和置信度CustomerbuysdiaperCustomerbuysbothCustomerbuysbeer对所有满足最小支持度和置信度的关联规则支持度s是指事务集T中包含的百分比置信度c是指T中包含A同时也包含B的事务占包含A的事务的百分比最小支持度min_sup最小置信度min_conf强关联规则:如果事务集合T中的关联规则AB同

3、时满足support(AB)>min_sup,confidence(AB)>min_conf,则AB称为T中的强关联规则。关联规则挖掘就是在事务集合中挖掘强关联规则。k-项集:包含k个项的集合{牛奶,面包,黄油}是个3-项集如果K—项集的频率(即支持计数)大于最小支持计数(最小支持度×T中的事务总数n),则称该项集为频繁K—项集二、关联规则挖掘步骤大型数据库中的关联规则挖掘包含两个过程:找出所有频繁项集大部分的计算都集中在这一步由频繁项集产生强关联规则即满足最小支持度和最小置信度的规则Apriori算法定理一如果

4、某k-项集不是频繁k-项集,则包含IK的(k+1)--项集也不是频繁(k+1)--项集。该性质称为Apriori性质。由事务数据库挖掘单维布尔关联规则最简单的关联规则挖掘,即单维、单层、布尔关联规则的挖掘。最小支持度50%最小置信度50%对规则AC,其支持度置信度Apriori算法思想一.扫描一次事务集合,找出频繁1项集集合L1;二.基于L1,产生候选2项集集合C2,再扫描一次事务集合,比较候选支持计数与最小支持计数,找出频繁2项集L2;三.基于L2,找出C3,作剪枝运算,得到剪枝后的C3,再扫描一次事务集合,确定L

5、3;四.以此类推,直至找出频繁项集为止。最后在所有频繁项集中产生强关联规则。Apriori算法——示例DatabaseTDB1stscanC1L1L2C2C22ndscanC3L33rdscanTidItems10A,C,D20B,C,E30A,B,C,E40B,EItemsetsup{A}2{B}3{C}3{D}1{E}3Itemsetsup{A}2{B}3{C}3{E}3Itemset{A,B}{A,C}{A,E}{B,C}{B,E}{C,E}Itemsetsup{A,B}1{A,C}2{A,E}1{B,C}2{B

6、,E}3{C,E}2Itemsetsup{A,C}2{B,C}2{B,E}3{C,E}2Itemset{B,C,E}Itemsetsup{B,C,E}2最小支持计数:2使用Apiori性质由L2产生C31.连接:C3=L2L2={{A,C},{B,C},{B,E}{C,E}}{{A,C},{B,C},{B,E}{C,E}}={{A,B,C},{A,C,E},{B,C,E}}2.使用Apriori性质剪枝:频繁项集的所有子集必须是频繁的,对候选项C3,我们可以删除其子集为非频繁的选项:{A,B,C}的2项子集是{A,B}

7、,{A,C},{B,C},其中{A,B}不是L2的元素,所以删除这个选项;{A,C,E}的2项子集是{A,C},{A,E},{C,E},其中{A,E}不是L2的元素,所以删除这个选项;{B,C,E}的2项子集是{B,C},{B,E},{C,E},它的所有2-项子集都是L2的元素,因此保留这个选项。3.这样,剪枝后得到C3={{B,C,E}}多层关联规则(1)在适当的等级挖掘出来的数据项间的关联规则可能是非常有用的通常,事务数据库中的数据也是根据维和概念分层来进行储存的这为从事务数据库中挖掘不同层次的关联规则提供了可能。

8、在多个抽象层挖掘关联规则,并在不同的抽象层进行转化,是数据挖掘系统应该提供的能力挖掘多层关联规则的方法通常,多层关联规则的挖掘还是使用置信度-支持度框架,可以采用自顶向下策略请注意:概念分层中,一个节点的支持度肯定不小于该节点的任何子节点的支持度由概念层1开始向下,到较低的更特定的概念层,对每个概念层的频繁项计算累加计数每一层的关

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。