关联规则挖掘--AP算法

关联规则挖掘--AP算法

ID:40808991

大小:142.50 KB

页数:10页

时间:2019-08-08

关联规则挖掘--AP算法_第1页
关联规则挖掘--AP算法_第2页
关联规则挖掘--AP算法_第3页
关联规则挖掘--AP算法_第4页
关联规则挖掘--AP算法_第5页
资源描述:

《关联规则挖掘--AP算法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、《模式识别与应用》期中设计报告设计题目:关联规则挖掘实验班级:姓名:学号:指导教师:1实验目的(1)理解频繁模式挖掘的思想;(2)理解Apriori挖掘算法的原理;2实验步骤2.1算法原理Aprior使用一种称作逐层搜索的迭代方法,K项集用于搜索(K+1)项集。首先,通过扫描数据库,累积每个项的计数,并收集满足最小支持度的项,找出频繁1项集的集合。该集合记作L1。然后,L1用于寻找频繁2项集的集合L2,L2用于寻找L3,如此下去,直到不能再找到频繁K项集。为提高频繁项集逐层产生的效率,一种称作Apriori的重

2、要性质用于压缩搜索空间。Apriori性质:频繁项集的所有非空子集也必须是频繁的。如何在算法中使用Apriori性质?主要有两步过程组成:连接步和剪枝步。(1)连接步:为找L(k),通过将L(k-1)与自身连接产生候选K项集的集合。该候选项集合记作C(K)。设l1和l2是L(k-1)中的项集。记号l(i)[j]表示l(i)中的第j项。执行L(k-1)连接L(k-1),如果它们的前(K-2)项相同的话,其中L(k-1)的元素是可连接的。(2)剪枝步:为压缩C(K),可以用Apriori的性质:任何非频繁的(K-1

3、)项集都不是频繁K项集的子集。因此,如果候选K项集的(K-1)项子集不在L(k-1)中,则该候选也不可能是频繁的,从而可以从C(K)中删除。2.2算法步骤算法第一步是简单统计所有含一个元素的项集出现的频率,来决定最大的一维项目集,在第k步,分两个阶段,首先用一函数sc_candidate,通过第(k-1)步中生成最大项目集来生成候选项目集,然后搜素数据库计算候选项目集的支持度。Apriori算法描述如下:(1)={candidate1-itemset};(2)={c

4、c.countminsupport};(3)

5、For(k=2,,k++)(1)=sc_candidate();(2)foralltransactiontD(3)=count_support(,t)(4)forallcandidatesc(5)c.count=c.count+1;(6)next(7)={c

6、c.countminsupport};(8)Next(9)Resultset=resultset其中,D表示数据库;minsupport表示给定的最小支持度;resultset表示所有最大项目集。k-itemset表示k维项目集;:具有最小支持度的最大k-

7、itemset;:候选的k-itemset(潜在最大项目集)2.3模型的建立和求解模型一:基于Apriori算法的关联规则挖掘模型1.模型的准备设:I={i1,i2......,im}是所有项目的集合.D是所有事务的集合(即数据库),每个事务T是一些项目的集合,T包含在D中,每个事务可以用唯一的标识符TID来标识.设X为某些项目的集合,如果X包含在T中,则称事务T包含X,关联规则则表示为如下形式(X包含在T)=>(Y包含在T)的蕴涵式,这里X包含在I中,Y包含在I中,并且X∧Y=Φ.其意义在于一个事务中某些项的

8、出现,可推导出另一些项在同一事务中也出现(为简单化,将(X包含在T)=>(Y包含在T)表示为X=>Y,这里,‘=>’称为‘关联’操作,X称为关联规则的先决条件,Y称为关联规则的结果).事务数据库D中的规则X=>Y是由支持度s(support)和置信度c(confidence)约束,置信度表示规则的强度,支持度表示在规则中出现的频度。数据项集X的支持度s(X)是D中包含X的事务数量与D的总事务数量之比,但为下文便于叙述,数据项集X的支持度是用数据库D中包含X的数量来表示;规则X=>Y的支持度s定义为:在D中包含X

9、∪Y的事务所占比例为s%,表示同时包含X和Y的事务数量与D的总事务量之比。用该项集出现的次数除以TID总数即可得到,用如下公式表示:Support(X)=Count(X)/Count(TID)规则X=>Y的置信度c定义为:在D中,c%的事务包含X的同时也包含Y,表示D中包含X的事务中有多大可能性包含Y.依据所求的频繁项集,及所求得的支持度,运用如下公式求解:Confidence(X=>Y)=Support(X∪Y)/Support(X)最小支持度阈值minsupport表示数据项集在统计意义上的最低主要性.最小

10、置信度阈值mincontinence表示规则的最低可靠性.如果数据项集X满足X.support>=minsupport,则X是大数据项集.一般由用户给定最小置信度阈值和最小支持度阈值.置信度和支持度大于相应阈值的规则称为强关联规则,反之称为弱关联规则.发现关联规则的任务就是从数据库中发现那些置信度、支持度大小等于给定值的强壮规则.基于上述概念,我们可以很容易得到一些基本结论:(1)K维

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。