资源描述:
《数据仓库与数据挖掘实验报告》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、数据仓库与数据挖掘课程APRIORI算法学习一简介Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。而且算法己经被广泛的应用到商业、网络安全等各个领域。它是一种最奋影响的挖掘布尔关联规则频繁项集的算法。其核心是某于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集[1]。二基本思想该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足
2、最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递归的方法。挖掘步骤:(1)依据支持度[2]找出所有频繁项集(频度)。(2)依据置信度[31产生关联规则(强度)。三核心流程Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。是基于这样的事实:算法使用频繁项集性质的先验知识。Apriori使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)-项集。首
3、先,找出频繁1-项集的集合。该集合记作LI。L1用于找频繁2-项集的集合L2,而L2用于找L3,如此不去,直到不能找到频繁k-项集。找每个Lk需要一次数据库扫描。这个算法的思路,简单的说就是如果集合I不是频繁项集,那么所冇包含集合I的更大的集合也不可能是频繁项集。算法原始数据如下:TIDListofitemID’sT10011,12,15T20012,14T30012,13T40011,12,14T50011,13T60012,13T70011,13T80011,12,13,15T90011,12,13算法的基本过程如下图:Li项篥支持度计数描D、对每険选汁数(H
4、){I2J67{13}6{14}22Cl支持度计数{11}6{12}7{13}6{14}2{15}2项篥项篥支持度i十数由1^卢生{HJ2}}3«d,对每个选计数{I1J2}4候ftc2費{IU3}{11,14}{I1J3}{11J4}41{I1J5}{I1J5}2{1X13}{I2J3}4{12,14}{1244}2{I2J5}{12,15}2{13.14}{I3J4}0{1345}{I3J5}1{1415}{14.15}0由L2卢生候选c3C3唎D、对毎个候选汁数C3项篥项篥支持度汁数{I1J2J3}{I1.I2J3}2(11,12,15}{IU2J5}2项集
5、支»度计数匕超候选支持度计数{I1J2}45最小支持度计数{1143)4{IU5}2{1243}4(I2J4)2(12.15}2项篥支持度i十数{I1AI3J2(I1AI5)21-3首先扫描所有事务,得到1-项集C1,根据支持度要求滤去不满足条件项集,得到频繁1-项集。下面进行递归运算:己知频繁k-项集(频繁1-项集己知),根据频繁k-项集中的项,连接得到所有可能的K+l_项,并进行剪枝(如果该k+l_项集的所有k项子集不都能满足支持度条件,那么该k+1项集被剪掉),得到项集,然后滤去该6^*项集中不满足支持度条件的项得到频繁k+1-项集。如果得到的q+l项集为空
6、,则算法结束。连接的方法:假设A项集中的所有项都是按照相同的顺序排列的,那么如果km和中的前k—i项都是完全相同的,而第k项不同,则~1和£〜1是可连接的。比如A屮的{11,12}和{11,13}就是可连接的,连接之后得到{11,12,13},但是{11,12}和{12,13}是不可连接的,否则将导致项集屮出现重复项。关于剪枝再举例说明一下,如在由&生成的过程中,列举得到的3_项集包括{11,12,13},{11,13,15},{12,13,14},{12,13,15},{12,14,15},但是由于{13,14}和{14,15}没有出现在中,所以{12,13,1
7、4},{12,13,15},{12,14,15}被剪枝掉了。简单的讲:发现频繁项集,过程为(1)扫描(2)计数(3)比较(4)产生频繁项集(5)连接、剪枝,产生候选项集。重复步骤(1)〜(5)直到不能发现更大的频集。2、产生关联规则,过程为:根据前面提到的置信度的定义,关联规则的产生如下:(1)对于每个频繁项集L,产生L的所有非空子集;(2)对于L的每个非空子集S,如果P(L)/P(S)=minconf则输出规则“SSL-S”注:L-S表示在项集L中除去S子集的项集伪代码伪代码描述://找出频繁1项集LI=find_frcqucnt_l-itcmscts(D);F
8、or(k=