欢迎来到天天文库
浏览记录
ID:55933033
大小:533.85 KB
页数:4页
时间:2020-06-16
《基于多最小支持度的关联规则挖掘.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、2014年第23卷第3期http://www.c—S—a.org.ca计算机系统应用基于多最小支持度的关联规则挖掘①晏杰,亓文娟,郭磊,黄书城(武夷学院团委,武夷山354300)(武夷学院数学与计算机学院,武夷山354300)摘要:分析了单最小支持度关联规则挖掘的局限性,提出了基于多最小支持度的关联规则挖掘模型,重点研究了多最小支持度MS.Apriori算法的基本思想,指出了算法的优缺点并通过实例说明发现频繁项集的方法,最后指出该算法的不足及改进算法.关键词:关联规则;多最小支持度;MS.Apriori算法
2、BasedonMultipleMinimumSupportsofAssociationRulesinDataMiningYANJie,QIWen—Juan,GUOLei,HUANGShu—Cheng(YouthLeagueCommittee,WuyiUniversity,Wuyishan354300,China)(MathematicsandComputerSciencecollege,WuyiUniversity,Wuyishan354300,China)Abstract:Thispaperanalyze
3、dthelimitationofthesingleminimumsupportdegreeofassociationrulemining.Weputforwardthemodelofassociationruleminingbasedonmultipleminimumsupport.OurworkfocusonthemultipleminimumsupportMS—Apriorialgorithmthebasicideaandpointsouttheadvantagesanddisadvantagesoft
4、healgorithmwithpracticalexamples.Ourworkfoundthatthemethodoffrequentitemsets,andfinallypointsouttheshortageofthealgorithmandimprovedalgorithm.Keywords:associationrules;multipleminimumsupports;MS—Apriorialgorithm关联规则挖掘在数据挖掘中占有极其重要的地位,算法,围绕着该算法出现了不少改进算法,比如不产
5、最早是由R.Agrawal等人在1993年提出来的,是用于生候选项集算法FP.growth算法【1】,它克服了Apriori发现隐藏在大型数据集中令人感兴趣的联系,即发现算法中多次扫描事务数据库的缺陷,只需对事务数据数据项集之间潜在的关联或依赖联系.为了发现有意库进行二次扫描,将发现长频繁模式的问题转化递归义的规则,需要给定两个阈值:最小支持度和最小置模式增长的策略,避免产生的大量候选集,大大降低信度.传统的关联规则挖掘大多采用单最小支持度,了算法的时间复杂度.但是这些改进算法只设定一个本文针对频繁项集发现
6、算法使用单支持度的不足进行最小支持度阈值来限制需要的搜索空间及规则产生的了分析,提出了多支持度的关联规则挖掘算法数量,其中隐含着这样一个假设:数据集中各项具有MS—Apriori,研究了该算法的基本思想,并通过具体相同或相似的出现频率,然而现实情况并非如此,如的实例说明发现频繁项集的方法,同时指出了算法的果采用单支持度进行关联规则挖掘,将会遇到以下两不足及改进算法,旨在对关联规则挖掘算法的扩展和个问题:改进奠定基础.(1)如果将最小支持度阈值设置的过高,则在挖掘频繁项集的过程中,由于出现频率较低项的支持度低
7、1单支持度挖掘的局限性于最小支持度阈值而被过滤掉,但在实际生活中,我们Apriori算法是挖掘布尔关联规则频繁项集的经典往往更关注包含出现频率较低项的规则,它有可能①收稿时间:2013-04.28;收到修改稿时间:2013-09-22ResearchandDevelopment研究开发237计算机系统应用http://www.C—S—a.org.cn2014年第23卷第3期会给我们带来价值.比如商场奢侈品的购买频率比日则挖掘的算法,该算法是Apriori算法的改进算法.常生活用品小,由于奢侈品的利润高,它的
8、购买模式Apriori算法使用Apriori性质【】(频繁项集的所有非空对于商场来说非常重要.子集也是频繁的)来生成候选项集,对于多最小支持度(2)如果将最小支持度阈值设置的过低,这样就下该性质不再成立.例如:在事务数据库中有4个项会导致组合爆炸,符合要求的频繁项集和关联规则的目A、B、C、D,它们的最小项支持度分别是:MIS(A)=0.1,数目将以指数级的速度增长,严重降低了算法的效率,MIS(B)=0.2,M
此文档下载收益归作者所有