欢迎来到天天文库
浏览记录
ID:32518811
大小:2.95 MB
页数:59页
时间:2019-02-10
《关联规则算法研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、摘要关联规则算法研究与应用数据挖掘是当前KDD中的一个重要领域,而关联规则挖掘是数据挖掘的一个重要组成部分。Internet的发展促进了数据库技术的深入应用。由于安全及通信成本、效率等多方面的原因,大量的分散数据不可能集中起来处理。分布式关联规则的挖掘就是在这样的背景下提出的,本文主要研究了如何提高分布式关联规则算法的效率和伸缩性。本文在分析和介绍了关联规则挖掘的基本概念和方法以及分布式关联规则挖掘方法和技术基础上,提出了中心结点结构的分布式关联规则挖掘的算法(CDA&FP)。同时,分析介绍了基于Web文本集的特征关联规则挖掘框
2、架,详细论述了该框架所涉及到的技术和实现过程中的诸多问题。Apriori算法是经典的关联规则算法,而该算法在空间和时间的复杂性有着难以克服的局限性。文中介绍了一种不需要产生候选项的频繁模式增长算法,将数据库的事务的信息压缩到FP—tree,然后产生频繁模式,从而避免了多次扫描数据库,降低了时间开销。对于分布式关联规则挖掘问题,目前的主要算法是CD算法和FDM算法。这些算法都是基于网状结构的分布式关联规则挖掘算法,同时结点都是采用Apriori算法来挖掘局部频繁集,因此在结点通讯量和候选频繁集方面存在不足。本文在FP-Growth
3、算法及FDM算法的基础上,提出以中心结点结构的分布式关联规则挖掘算法,并且从算法分析和实验测试两个方面证明了算法的有效性和可扩展性。关键词:数据挖掘,分布式关联规则,全局频繁项集,频繁模式增长,Web文本挖掘AbstractRESEARCHANDAPPLICATIONOFASSOCIATIONRULESALGORITHMABSTRACTDataminingisallimportantareainKDD,andminingassociationrulesmininginlargedatabasesisacriticalaspect
4、ofdatamiIlingresearches.TherapiddevelopmentofInternetmakesagreatprogressindatabaseapplications.Sincethesecurityandcostofcommunicationandefficiencyoftheapplications,collectingandintegratingalargeamountofdatafromInternetsitesarenotpracticalways.Theproblemofminingassoci
5、ationrulesindistributeddatabasesarisesfromthissituation,thecoreofdissertationiShowtoimprovethevalidityandscalabilityofminingalgorithmofdistributedassociationrules.Thisdissertationproposesthedistributedassociationrulesminingalgorithm(CDA&FP)instarstructure,basedonanal
6、ysesandintroductionofthebasicconceptsandalgorithmsofminingassociationrulesandminingassociationrulesindistributeddatabasesfirst.AcalculatingofarchitectureusedforminingassociationrulesoftextcharactersiSproposedandthemaintechniquesofthrarchitecturearethendecribedindetai
7、l.TheApriorialgorithmiStheclassicmethodoffindingassociationrules,buthasthedisadvantageinthecomplexityofspaceandtime.Therefore。this也esisintroducesanew行equent—paRemgrowthalgorithmthatdoesnotneedtoproducethecandidateitemsets.nlisalgorithmcompressesinformationindatabaset
8、otheFP-tree,thenproducesfrequentpattem,consequentlyavoidsscanningthedatabasemanytimes,andlowersthetimeexpense.TheFDMandCDaremainstr
此文档下载收益归作者所有