关联规则挖掘--AP算法

ID：40808991

大小：142.50 KB

页数：10页

时间：2019-08-08

资源描述：

《关联规则挖掘--AP算法》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、《模式识别与应用》期中设计报告设计题目：关联规则挖掘实验班级：姓名：学号：指导教师：1实验目的（1）理解频繁模式挖掘的思想；（2）理解Apriori挖掘算法的原理；2实验步骤2.1算法原理Aprior使用一种称作逐层搜索的迭代方法，K项集用于搜索（K+1）项集。首先，通过扫描数据库，累积每个项的计数，并收集满足最小支持度的项，找出频繁1项集的集合。该集合记作L1。然后，L1用于寻找频繁2项集的集合L2，L2用于寻找L3，如此下去，直到不能再找到频繁K项集。为提高频繁项集逐层产生的效率，一种称作Apriori的重

2、要性质用于压缩搜索空间。Apriori性质：频繁项集的所有非空子集也必须是频繁的。如何在算法中使用Apriori性质？主要有两步过程组成：连接步和剪枝步。(1)连接步：为找L(k),通过将L(k-1)与自身连接产生候选K项集的集合。该候选项集合记作C(K)。设l1和l2是L(k-1)中的项集。记号l(i)[j]表示l(i)中的第j项。执行L(k-1)连接L(k-1)，如果它们的前（K-2）项相同的话，其中L(k-1)的元素是可连接的。(2)剪枝步：为压缩C(K)，可以用Apriori的性质：任何非频繁的（K-1

3、）项集都不是频繁K项集的子集。因此，如果候选K项集的（K-1）项子集不在L(k-1)中，则该候选也不可能是频繁的，从而可以从C(K)中删除。2.2算法步骤算法第一步是简单统计所有含一个元素的项集出现的频率，来决定最大的一维项目集，在第k步，分两个阶段，首先用一函数sc_candidate,通过第（k-1）步中生成最大项目集来生成候选项目集，然后搜素数据库计算候选项目集的支持度。Apriori算法描述如下：（1）={candidate1-itemset};（2）={c

4、c.countminsupport};（3）

5、For(k=2,,k++）（1）=sc_candidate();（2）foralltransactiontD（3）=count_support(,t)（4）forallcandidatesc（5）c.count=c.count+1;（6）next（7）={c

6、c.countminsupport};（8）Next（9）Resultset=resultset其中，D表示数据库；minsupport表示给定的最小支持度；resultset表示所有最大项目集。k-itemset表示k维项目集；：具有最小支持度的最大k-

7、itemset；：候选的k-itemset(潜在最大项目集)2.3模型的建立和求解模型一：基于Apriori算法的关联规则挖掘模型1.模型的准备设:I={i1,i2......,im}是所有项目的集合.D是所有事务的集合(即数据库),每个事务T是一些项目的集合,T包含在D中,每个事务可以用唯一的标识符TID来标识.设X为某些项目的集合,如果X包含在T中,则称事务T包含X,关联规则则表示为如下形式(X包含在T)=>(Y包含在T)的蕴涵式,这里X包含在I中,Y包含在I中,并且X∧Y=Φ.其意义在于一个事务中某些项的

8、出现,可推导出另一些项在同一事务中也出现(为简单化,将(X包含在T)=>(Y包含在T)表示为X=>Y,这里,‘=>’称为‘关联’操作，X称为关联规则的先决条件,Y称为关联规则的结果).事务数据库D中的规则X=>Y是由支持度s（support）和置信度c(confidence)约束,置信度表示规则的强度,支持度表示在规则中出现的频度。数据项集X的支持度s(X)是D中包含X的事务数量与D的总事务数量之比,但为下文便于叙述,数据项集X的支持度是用数据库D中包含X的数量来表示;规则X=>Y的支持度s定义为:在D中包含X

9、∪Y的事务所占比例为s%,表示同时包含X和Y的事务数量与D的总事务量之比。用该项集出现的次数除以TID总数即可得到，用如下公式表示：Support(X)=Count(X)/Count(TID)规则X=>Y的置信度c定义为:在D中,c%的事务包含X的同时也包含Y,表示D中包含X的事务中有多大可能性包含Y.依据所求的频繁项集，及所求得的支持度，运用如下公式求解：Confidence(X=>Y)=Support(X∪Y)/Support(X)最小支持度阈值minsupport表示数据项集在统计意义上的最低主要性.最小

10、置信度阈值mincontinence表示规则的最低可靠性.如果数据项集X满足X.support>=minsupport,则X是大数据项集.一般由用户给定最小置信度阈值和最小支持度阈值.置信度和支持度大于相应阈值的规则称为强关联规则,反之称为弱关联规则.发现关联规则的任务就是从数据库中发现那些置信度、支持度大小等于给定值的强壮规则.基于上述概念，我们可以很容易得到一些基本结论:(1)K维

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 10



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

关联规则挖掘--AP算法

关联规则挖掘--AP算法

相关文章

相关标签