欢迎来到天天文库
浏览记录
ID:17930842
大小:55.50 KB
页数:8页
时间:2018-09-10
《浅谈关联规则挖掘算法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、浅谈关联规则挖掘算法—读ANewJoinlessAprioriAlgorithmforMiningAssociationRules有感(宁德师范学院352100张世良)摘要:数据挖掘是一个多学科交叉融合而形成的新兴的学科,它利用各种分析工具在海量数据中发现模型和数据间的关系。而在大规模事务数据库中,挖掘关联规则是数据挖掘领域的一个非常重要的研究课题。文中介绍了关联规则挖掘的研究情况,描述了经典Apriori算法的实现,并对该算法进行了分析和评价,指出了其不足和原因。并对FP树挖掘最大频繁项集的算法描述,并得到结论:数据库中潜在的最大频
2、繁模式越多,运行时间越长。关键词:数据挖掘;关联规则;频繁项集;FP树BrieflyDiscussofMiningAssociationRulesAlgorithmAbstract:Dataminingisanemergingsubjectthatcomposedandamalgamatedbymultiplesubjects.Itisananalyticprocessdesignedtoexploredatainsearchofconsistentpatternsandsystematicrelationshipabetweenva
3、riables.Miningassociationrulesinbusinesstransactiondatahasoneoftheimportanttopicofresearchondatamining.Thispaperintroducedtheresearchcomplexionoftheassociationrulesminingalgorithm,describestheclassicalAprlorialgorithm,analysesandevaluatesit.TheauthoremphasizesFPtreemini
4、ngmaximumfrequentitemsetsalgorithmspecially.Andevaluatesperforceofthealgorithmthroughinstance.Attheend,thepapergivestheconclusion:themoremaximumfrequentitempatterninthedatabase,thelongerruntimeisneeded.Keywords:datamining;associationrules;frequentitemsets;FPtree0引言简单地说,
5、数据挖掘(datamining)是揭示存在于数据里的模式及数据间的关系的学科,它强调对大量观测到的数据库的处理。它是涉及数据库管理,人工智能,机器学习,模式识别,及数据可视化等学科的边缘学科。用统计的观点看,它可以看成是通过计算机对大量的复杂数据集的自动探索性分析。数据挖掘也就是通过某种方法,利用历史数据,在条件集合和结果集合之间建立一个致信度比较高的模型。而关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系,它在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现
6、交易数据库中不同商品(项)之间的联系,找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响。分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。1关联规则的意义世间万物的事情发生多多少少会有一些关联。一件事情的发生,很可能是也会引起另外一件事情的发生。或者说,这两件事情很多时候很大程度上会一起发生的。那么人们通过发现这个关联的规则,可以由一件事情的发生来,来推测另外一件事情的发生,从而更好地了解和掌握事物的发展,动向等等。这就是数据挖掘中,寻找关联规则的基本意义。在高校教务管理中,我们也可以发现这样的规律。比
7、如说,计算机学院的《C++程序设计语言》和《C程序设计语言》两门课程。一般大一的时候《C程序设计语言》拿优的学生,在大二学习《C++程序设计语言》的时候,多半也会拿优。而《C程序设计语言》不及格而补考的学生,在大二学习的《C++程序设计语言》课程里面,多半不会拿到优。道理很简单,因为《C程序设计语言》是《C++程序设计语言》的先行课程,如果没有良好的C语言功底,对于更加的复杂C++学习,肯定是很困难的。于是,这里就存在一个两门课程成绩的关联规则。但是,我们也不能说,《C程序设计语言》不及格的学生,100%不会在其后的《C++程序设计语
8、言》中拿到优。所以,从严谨的角度来阐述这条关联规则的时候,都是附带了规则发生的一系列概率参数。比如说,计算机学院02级里面10%的学生《C语言设计语言》和《C++程序设计语言》都拿到了优,而其中75%在《C程序设计语言》
此文档下载收益归作者所有