资源描述:
《基于矩阵技术的频繁项目集挖掘算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、基于矩阵技术的频繁项目集挖掘算法第37卷,b1.37第16期No.16计算机工程ComputerEngineering2011年8月August2011?软件技术与数据库?文章■号t1oo-3428(2o11)16_-珈8__o2文献标识码tA中田分类号lTP311.52基于矩阵技术的频繁项目集挖掘算法田芏君,蒋军辉2jn:l:E(1.南京工业大学电子与信息工程学院,南京211816;2.浙江处州建设管理有限公司,浙江丽水323000;J3.宁波大学商学院,浙江宁波315211)搞妥:频繁模式挖掘算法FP—gr
2、owth算法需递归地生成大量的条件FP-树,且耗费大量存储空间和时间.为此,采用矩阵技术统计约束子树中的频繁项集和频繁项集的支持度,以进行数据挖掘.实验结果表明,该频繁模式挖掘算法是有效的,具有较高的时间效率及空间效率.关奠诃:频繁模式;FP—growth算法;矩阵技术;数据挖掘;约束子树方法FrequentItemSetsMiningAlgorithmBased0nMatrixTechnologyTIANWang~un,JIANGJun.hui2,CHENShi-hui3(1.CollegeofElectro
3、nicsandInformationEngineering,NanjingUniversityofTechnology,Nanjing211816,China;2.ZhejiangChuzhouConstructionManagementCo.,Ltd.,Lishui323000,China;.3.BusinessSchool,NingboUniversity,Ningbo315211,CHina)[Abstract]SomeproblemsexistsinFP—growthalgorithm.Itmustre
4、cursivelygeneratehugenumberofconditionalFP-tre~sthatrequireshugevolumeofmemo~andcostsalotoftime.Inthispaper.ItUSeSmatrixtechnologyconstrainedsub-treestatistiefrequentitemsetsandfrequentitemsetsfordatamining.Experimentalresultshowsconstraintsub-treemethodwith
5、matrixtechnologyisanefficientfrequentpattemminingalgorithmandithasab~ttertimeefficiencyandspaceefficiency.IKeywords]frequentpattern;FP-growthalgorithm;matrixtechnology;datamining;constraintsub—treemethodDOI:10.3969/j.issn.1000-3428.2011.16.027.1概述频繁模式挖掘是数据挖掘
6、的重要内容之一,文献[1]首次提出Apriori算法,数据挖掘领域的研究者在关联规则挖掘与更新上做了大量工作.长期以来,挖掘频繁模式主要采用Apriori及其改进算法,然而,Apfiori及其改进算法需要产生大量的候选项集,并需要多次扫描数据库,这严重影响了算法的效率.文献【2】提出的频繁项目集挖掘算法(FP-growth)采用FP—tree的存储结构,打破Apdofi-like框架,可以有效提高频繁项目集的挖掘效率.FP—growth算法是一种本质上不同于Apriori算法的有效模式挖掘算法,FP—growt
7、h采用分而治之的策略,它开辟了有效挖掘频繁模式的新途径,但它的时间效率和空间效率还不够高,在FP—Tree和条件FP—Tree的构造与遍历上会消耗大量的时间和空间.针对以上问题,文献【4】提出一种不需要产生条件FP—Tree而是直接利用最初FP—Tree的约束子树进行挖掘的算法.该算法根据FP—Tree产生和挖掘有效地精简了树节点指针域的个数,提出了压缩FP—Tree(CompactFP—Tree,CFP-树),节省大量存储空间.文献[5】提出一种单遍扫描频繁模式树结构,在挖掘过程中动态地逐条分支地重构树,最终
8、产生一棵频繁递减的前缀树,具有良好的压缩性能.文献[6】运用数组技术减少约束子树的遍历,在建立约束子树的同时给出相关项的支持度,在一定程度上解决了文献[4]方法需要2次遍历约束子树的缺陷,从挖掘过程中可以看出,该方法需要递归产生数组来获取相关支持度.本文继续沿用CFP一树来存储事务数据库的数据信息,采用基于约束子树的频繁模式挖掘算法避免生成条件FP—Tree,在挖掘约束子树的过程中还将