资源描述:
《一种基于分类的关联规则Apriori算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第8卷第5期江南大学学报(自然科学版)Vol.8No.52009年10月JournalofJiangnanUniversity(NaturalScienceEdition)Oct.2009一种基于分类的关联规则Apriori算法3李国志,王洪春,李世全(重庆师范大学数学与计算机科学学院,重庆400047)摘要:关联规则的Apriori算法,在频繁项集的过程中要多次扫描数据库,而事务数据库中含有较多的冗余数据,极大地影响了频繁项集的提取效率。针对这些问题,提出一种基于分类的Apriori算法,在频繁项集提取以前,用分类的方法去掉
2、无关冗余数据。实验结果表明这种方法较好地提高了Apriori算法的性能,在实践中有一定的应用价值。关键词:K2最近邻;基于案例推理;Apriori算法中图分类号:TP301.6文献标识码:A文章编号:1671-7147(2009)05-0535-04ClassificationBasedonAssociationRulesAprioriAlgorithm3LIGuo2zhi,WANGHong2chun,LIShi2quan(CollegeofMathematicsandComputerScience,ChongqingNorm
3、alUniversity,Chongqing400047,China)Abstract:Withthelargeamountofdatacollectionandstorage,associationruleshaveamoreimportantapplicationinmanyareas,andtheclassicalassociationrulesalgorithmisApriorialgorithm.Butitisintheprocessoffrequentitemsetsandneedsscandatabasesman
4、ytimes.Transactiondatabasecontainsmoreredundantdata,whichgreatlyaffectedtheextractionoffrequentitemsets.Itusetheclassificationmethodtoremovetheredundantdata.TheexperimentalresultsshowbetterimprovementintheperformanceoftheApriorialgorithm.Ithastheapplicationofacertai
5、nvalueinreality.Keywords:K2nearestneighbor,case2basedreasoning,Apriorialgorithm随着大量数据不停地收集和存储,许多业界人心是通过项目集元素数目不断增长来逐步完成频士对于从它们的数据库中挖掘关联规则越来越感繁项目集发现的。其首先产生12频繁项集L1,然后兴趣。从大量商务事务记录中发现有趣的关联关是22频繁项集L2,直到不再扩展频繁项集的元素数系,可以帮助许多商务决策的制定,这就是关联规目而算法停止。在第k次循环中,过程先产生K2候[1]则。最经典的关联
6、规则提取算法是Apriori算选集的集合Ck,然后通过扫描数据库生成支持度并[2]法。它是由RakeshAgrawalRama和Krishnan测试产生K2频繁项集Lk,但当数据库中事务较多,Skrikant提出的,其思想是利用已知的高频数据项项目集较大时,扫描计算量大,耗时多。文中在对[3]集推导其他高频数据项集。Apriori算法进行分析研究的基础上,引入了分类的在关联规则挖掘算法中,经典Apriori算法的核思想,给出了一种基于分类的Apriori算法,利用频收稿日期:2009-05-02;修订日期:2009-06-30
7、。基金项目:重庆市教委科学技术研究项目(KJ080817)。作者简介:李国志(1978-),男,河南信阳人,系统分析与集成专业硕士研究生。3通讯作者:王洪春(1967-),男,四川大足人,教授,硕士生导师。主要从事人工智能、不确定性推理、数据挖掘等研究。Email:wanghongchun@swsc.com.cn536江南大学学报(自然科学版)第8卷繁12项集重新组织事务数据库来挖掘关联规则,该近邻居的数目,而不考虑它们与d0的相似程度。方法去掉了大量的冗余数据,比经典Apriori算法有SWF弥补了DVF的不足,它根据不同类
8、别中的邻居着更好的性能。与d0的相似程度来作出预测,同时赋予较近的邻居以较大的权重。SWF决策函数如公式(6)所示:1分类和Apriori算法的基本概念kScore(d0,Ci)=∑Sim(d0,di)σ(di,Cj)di∈KNN(d0)1.1分类的概念(6)[728]1.1