最新[工学]第3章关联规则挖掘理论和算法new教学讲义ppt.ppt

最新[工学]第3章关联规则挖掘理论和算法new教学讲义ppt.ppt

ID:62078339

大小:1.36 MB

页数:54页

时间:2021-04-14

最新[工学]第3章关联规则挖掘理论和算法new教学讲义ppt.ppt_第1页
最新[工学]第3章关联规则挖掘理论和算法new教学讲义ppt.ppt_第2页
最新[工学]第3章关联规则挖掘理论和算法new教学讲义ppt.ppt_第3页
最新[工学]第3章关联规则挖掘理论和算法new教学讲义ppt.ppt_第4页
最新[工学]第3章关联规则挖掘理论和算法new教学讲义ppt.ppt_第5页
资源描述:

《最新[工学]第3章关联规则挖掘理论和算法new教学讲义ppt.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、[工学]第3章关联规则挖掘理论和算法new关联规则挖掘是数据挖掘研究的基础关联规则挖掘(AssociationRuleMining)是数据挖掘中研究较早而且至今仍活跃的研究方法之一。最早是由Agrawal等人提出的(1993)。最初提出的动机是针对购物篮分析(BasketAnalysis)问题提出的,其目的是为了发现交易数据库(TransactionDatabase)中不同商品之间的联系规则。关联规则的挖掘工作成果颇丰。例如,关联规则的挖掘理论、算法设计、算法的性能以及应用推广、并行关联规则挖掘(ParallelAssociationRuleMining)以及

2、数量关联规则挖掘(QuantitiveAssociationRuleMining)等。关联规则挖掘是数据挖掘的其他研究分支的基础。基本概念与解决方法事务数据库设I={i1,i2,…,im}是一个项目(Item)集合,事务数据库D={t1,t2,…,tn}是由一系列具有唯一标识TID(事务号)的事务组成,每个事务ti(i=1,2,…,n)都对应I上的一个子集。一个事务数据库可以用来刻画:购物记录:I是全部物品集合,D是购物清单,每个元组ti是一次购买物品的集合(它当然是I的一个子集)。如I={物品1,物品2,…,物品m};事务数据库D={t1,t2,…,tn}是

3、事务数据库中关联规则的挖掘t1物品2物品6物品9…………t2物品3物品8物品16……………………tn物品1物品12物品34…………项目集格空间理论Agrawal等人建立了用于事务数据库挖掘的项目集格空间理论(1993,Appriori属性)。其理论核心的原理是:频繁项目集的所有非空子集都是频繁项目集非频繁项目集的所有超集都是非频繁项目集(相关定理及其证明略。)经典的频繁项目集生成算法分析Apriori算法是通过项目集元素数目不断增长来完成频繁项目集发现的。首先产生1_频繁项目集L1,然后产生2_频繁项目集L2,直到不能再扩展频繁项目集的元素数目为止。下面给出一

4、个样本事务数据库,并对它实施Apriori算法。TIDItemset1001,3,42002,3,53001,2,3,54002,5经典的发现频繁项目集算法1994年,Agrawal等人提出了著名的Apriori算法。Apriori算法例子DatabaseDC1L1L2C2ScanDL3ScanDC3ScanDC4ScanDScanDØL4Minsupport=50%C1:1-候选集L1:1-频繁项目集C2:2-候选集L2:2-频繁项目集C3:3-候选集L3:3-频繁项目集C4:4-候选集L4:4-频繁项目集L3是最大频繁项目集Apriori算法(发现频繁项目

5、集)(1)L1={large1-itemsets};//所有1-项目频集(2)FOR(k=2;Lk-1;k++)DOBEGIN(3)Ck=apriori-gen(Lk-1);//Ck是k-候选集(4)FORalltransactionstDDOBEGIN(5)Ct=subset(Ck,t);//Ct是所有t包含的候选集元素(6)FORallcandidatescCtDO(7)c.count++;(8)END(9)Lk={cCk

6、c.countminsup_count}(10)END(11)L=∪Lk;Apriori-gen过程算法Apriori中调

7、用了Apriori-gen(Lk-1),是为了通过(k-1)-频集产生K-侯选集。has_infrequent_subset(c,Lk-1),判断c是否加入到k-侯选集中。(1)FORallitemsetpLk-1DO(2)FORallitemsetqLk-1DO(3)IFp.item1=q.item1,…,p.itemk-2=q.itemk-2,p.itemk-1

8、含有非频繁项目子集的侯选元素(7)ELSEaddctoCk;(8)END(9)ReturnCk;关联规则的生成问题根据上面介绍的关联规则挖掘的两个步骤,在得到了所有频繁项目集后,可以按照下面的步骤生成关联规则:对于每一个频繁项目集l,生成其所有的非空子集;对于l的每一个非空子集x,计算Conference(x),如果Confidence(x)≥minconfidence,那么“x(l-x)”成立。关联规则生成算法:从给定的频繁项目集中生成强关联规则该算法的核心是genrules递归过程,它实现一个频繁项目集中所有强关联规则的生成。Rule-generate(

9、L,minconf)(1)FOReac

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。