关联规则算法研究与应用

关联规则算法研究与应用

ID:32518811

大小:2.95 MB

页数:59页

时间:2019-02-10

关联规则算法研究与应用_第1页
关联规则算法研究与应用_第2页
关联规则算法研究与应用_第3页
关联规则算法研究与应用_第4页
关联规则算法研究与应用_第5页
资源描述:

《关联规则算法研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要关联规则算法研究与应用数据挖掘是当前KDD中的一个重要领域,而关联规则挖掘是数据挖掘的一个重要组成部分。Internet的发展促进了数据库技术的深入应用。由于安全及通信成本、效率等多方面的原因,大量的分散数据不可能集中起来处理。分布式关联规则的挖掘就是在这样的背景下提出的,本文主要研究了如何提高分布式关联规则算法的效率和伸缩性。本文在分析和介绍了关联规则挖掘的基本概念和方法以及分布式关联规则挖掘方法和技术基础上,提出了中心结点结构的分布式关联规则挖掘的算法(CDA&FP)。同时,分析介绍了基于Web文本集的特征关联规则挖掘框

2、架,详细论述了该框架所涉及到的技术和实现过程中的诸多问题。Apriori算法是经典的关联规则算法,而该算法在空间和时间的复杂性有着难以克服的局限性。文中介绍了一种不需要产生候选项的频繁模式增长算法,将数据库的事务的信息压缩到FP—tree,然后产生频繁模式,从而避免了多次扫描数据库,降低了时间开销。对于分布式关联规则挖掘问题,目前的主要算法是CD算法和FDM算法。这些算法都是基于网状结构的分布式关联规则挖掘算法,同时结点都是采用Apriori算法来挖掘局部频繁集,因此在结点通讯量和候选频繁集方面存在不足。本文在FP-Growth

3、算法及FDM算法的基础上,提出以中心结点结构的分布式关联规则挖掘算法,并且从算法分析和实验测试两个方面证明了算法的有效性和可扩展性。关键词:数据挖掘,分布式关联规则,全局频繁项集,频繁模式增长,Web文本挖掘AbstractRESEARCHANDAPPLICATIONOFASSOCIATIONRULESALGORITHMABSTRACTDataminingisallimportantareainKDD,andminingassociationrulesmininginlargedatabasesisacriticalaspect

4、ofdatamiIlingresearches.TherapiddevelopmentofInternetmakesagreatprogressindatabaseapplications.Sincethesecurityandcostofcommunicationandefficiencyoftheapplications,collectingandintegratingalargeamountofdatafromInternetsitesarenotpracticalways.Theproblemofminingassoci

5、ationrulesindistributeddatabasesarisesfromthissituation,thecoreofdissertationiShowtoimprovethevalidityandscalabilityofminingalgorithmofdistributedassociationrules.Thisdissertationproposesthedistributedassociationrulesminingalgorithm(CDA&FP)instarstructure,basedonanal

6、ysesandintroductionofthebasicconceptsandalgorithmsofminingassociationrulesandminingassociationrulesindistributeddatabasesfirst.AcalculatingofarchitectureusedforminingassociationrulesoftextcharactersiSproposedandthemaintechniquesofthrarchitecturearethendecribedindetai

7、l.TheApriorialgorithmiStheclassicmethodoffindingassociationrules,buthasthedisadvantageinthecomplexityofspaceandtime.Therefore。this也esisintroducesanew行equent—paRemgrowthalgorithmthatdoesnotneedtoproducethecandidateitemsets.nlisalgorithmcompressesinformationindatabaset

8、otheFP-tree,thenproducesfrequentpattem,consequentlyavoidsscanningthedatabasemanytimes,andlowersthetimeexpense.TheFDMandCDaremainstr

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。