欢迎来到天天文库
浏览记录
ID:5291947
大小:283.88 KB
页数:4页
时间:2017-12-07
《一种改进的基于矩阵的频繁项集挖掘算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、第期计算机技术与发展Vo1.20No.42010年4月∞MP1兀RTECHN0IoGYANDDEVEL0PMENrApr.2010一种改进的基于矩阵的频繁项集挖掘算法张笑达,徐立臻(东南大学计算机系,江苏南京211189)摘要:如何从海量数据信息中挖掘出有用的关联规则已经成为人们广泛关注的问题,而在关联规则挖掘中,首要的问题就是如何高效地挖掘出频繁项集。针对已有FIMM算法作出改进,提出了一种改进的基于矩阵的频繁项集挖掘算法N—FIMM,该算法在FIMM基础上去除大量冗余的非频繁项集的项集,减少计算
2、可能频繁项集的工作量,同时缩小了矩阵规模,提高了空间效率。通过对矩阵操作,一次性地产生所有的频繁项集。试验结果表明,该算法对已有的基于矩阵的频繁项集挖掘算法有了很大的改进,提高了挖掘效率。关键词:数据挖掘;频繁项集;FIMM中图分类号:1]P301.6文献标识码:A文章编号:1673~629X(2010)04—0093—04AnAdvancedFrequentItemsetsMiningAlgorithmBasedonMatrixZHANGXiao-da,XULi—zhen(ComputerColl
3、ege,SoutheastUniversity,Nanjir~4g211189,China)Abstract:HowtOminetheusefulassooationrulefromlargenumbersofdatainformationhasbeenamainproblemconcernedwidely.聊Iileintheminingofassociatkmrule.thechiefquestionishowtomineOUtthefrequentitemsetseffectively.Ana
4、dvancedfrequentimmsetsmining~orithmbasedonF][删isproposedinthispaper.Throughdeletingunnecessaryitentsets.thealgorithmgreatlydemi—nishtheworkloadofgettingitemsetsaswellasminifythew.ahofmatrix.Thus,theeficiencyofspaceutilityislargelyimproved.Byop-erating0
5、1"1thematrix,allthefrequentit~metsaIegeneratedone—time,itisprovedbyexperimentsthatthisa1g0riismuchmoreef-f~fivethefrequentitemsetaminingalgorithmbasedonmatrixeximing.Itwillimprovetheefficiencyofdatamining.Key:datamining;frequentitemset;FIMMO引言库的事务中包含10
6、个项,可能产生的所有项集数就达关联规则挖掘是数据挖掘的一个重要方面,其目到210个,这已经是一个不小的数字!现实中数据库中的是从海量的数据中挖掘出满足用户兴趣的依赖关包含的项目数可能是100、1000,甚至更多,由此产生的所有可能项集数将不可想象,因此数据库所有可能系,关联规则挖掘的核心是挖掘频繁项集。RekeshA.grawal等人提出关联规则发现算法后⋯,该技术被众项集的计算量和矩阵规模也将成为FIMM算法的瓶颈。多学者广泛研究,出现了许多相关算法:以Ap一算针对FIMM算法存在的问题,提出了一
7、种改进的法为代表的采用逐层搜索的迭代方式和不产生候选项集的FP—growth算法-2J。基于矩阵的频繁项集挖掘算法(N—FlMM),该算法只需扫描数据库一次就能把事务数据库转化成频繁项集目前,已有研究人员提出了基于矩阵的频繁项集矩阵,在构造频繁项集矩阵的过程中先去除那些必不挖掘算法FIMM(FrequenthemsetsMiningbasedon可能成为频繁项集的项集和频繁1一项集,这样就大Matrix)-3J,该算法只需扫描数据库一次便构造出频繁大减小了计算项集的工作量,同时缩小了矩阵的规模,项集
8、矩阵,避免了产生大量候选项集的瓶颈。然而在然后对项集向量进行累加操作以实现对项集的计数,构造矩阵的过程中,此算法需计算出数据库可能产生由此一次性产生所有频繁项集,避免了FIMM算法的的所有项集,因此要进行大量计算,而且构造出的频繁瓶颈,有效提高了挖掘效率。项集矩阵规模异常庞大,算法空间效率低。假设数据收稿日期:20o9一o7—14;修回日期:2oo9一l1—041N—FIMM算法作者简介:~(1986一),女,硕士研究生,研究方向为移动数据1.1基本概念库的发展与应用
此文档下载收益归作者所有