资源描述:
《tough型约束下的频繁闭项集挖掘》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、Tough型约束下的频繁闭项集挖掘第27卷Vo1.27第11期NO.11计算机工程与设计ComputerEngineeringandDesign2006年6月June2006Tough型约束下的频繁闭项集挖掘沙俐敏,杨淑珍(1.上海第二工业大学计算机与信息学院,上海201209;2.上海第二工业大学机电工程学院,上海201209)摘要:回顾了常见的关联规则算法,关注频繁闭项集这一非常有发展前途的方法.在综合Tough型约束与频繁闭项集的基础上,提出了关联规则的一种新算法——基于Tough型约束的频繁闭项集挖掘算法(Tc-basedFCIMAlgorithm),分析了算法中选择过程
2、和过滤过程这两个重要过程的先后顺序.关键词:数据挖掘;联规则;频繁闭项集;支持度;Tough型约束中图法分类号:TP301.6文献标识码:A文章编号:1000?7024(2006)11-2041?03DataminingoffrequentcloseditemsetswithToughconstraintSHALi.min.YANGShu-zhen2(1.InstituteofComputerandInformation,ShanghaiSecondPolytechnicUniversity,Shanghai201209,China;2.DepartmentofElectrome
3、chanical,ShanghaiSecondPolytechnicUniversity,Shanghai201209,China)Abstract:Afterthetraditionalmethodsusedtoassociationrulesarereviewed,oneofthemostpromisingmethodsfrequentcloseditemsetsisemphasizedon.Combiningthetoughconstraintwithfrequentcloseditemsets.anewmethod——-TC?basedFCIMalgorithmispre
4、sented.Itcouldminetheassociationrulesdirectlyandefficiently~Therearetwomainprocessesinthealgorithm,selectfunctionandfilterfunction.Whichoneshouldbeputinadvanceisalsodiscussedindetail.Keywords:datamining;associationrules;frequentcloseditemsets;suppoaweigh;Toughconstraint0引言数据挖掘就是要从已存储在数据库中的大量数
5、据中提取或挖掘出有用的,事先不知道的知识.常见的有关联规则,分类规则,聚类规则,预测规则等等.由于关联规则不但能对数据挖掘中许多技术产生影响,能够帮助人们开展决策和管理活动,而且从研究的角度来看还处于初级阶段,因此成为研究的热点.有关关联规则的问题是由AgrawalR…等在1993年提出的.起初它是针对如何从大量的商业数据中提取出有效的规则,以帮助商家作出决策.在此基础上,AgrawalR和SrikantR在1994年提出了Apriori算法,又把算法衍生到如何挖掘泛化关联规则.有学者提出了基于约束的频繁项集的挖掘.在挖掘过程中,通过添加约束使得所进行的挖掘着眼于所关心的数据,从
6、而挖掘出满足特定条件的频繁项集.除了以上提到的挖掘关联规则的方法之外,还有一种被学者们认为是非常有前途的方法,那就是频繁闭项集挖掘….通过这种方法,能够提取频繁项集中的一部分特别的子集,如果需要就可以用这些子集重新产生全部的频繁项集.由于子集的大小比原始的频繁项集小,所以可以在不造成信息丢失的基础上,限制频繁项集的数量.就现在掌握的资料,还没有学者研究如何将约束中的一种复杂约束—_T01lgh型约束与频繁闭项集结合起来,这也就是本文研究的重点.不但要研究如何通过Apriori型的TC.basedFCIM算法来把Tough型约束嵌入频繁闭项集挖掘,而且还要讨论算法中的一个核心问题:
7、选择过程select()和过滤过程filter()的先后顺序对算法的影响.1Galois连接和闭项集定义1(知识挖掘)知识挖掘就是D=I,R).行是事务集(T),列是项集(I).R__qTxI表示事务集和项集之间的关系.定义2(Galois连接)设D=I,R)是一个数据挖掘任务,对于T__qT和I__qx,定义:p(T):2T一2p(T)={i∈TlVt∈i)∈R}q(D:2一2q(I)={teTIVieI,(t,i)∈R}因为2和2是T和T的幂集,(p,q)组成了一个Galoi