基于分布式的频繁闭合模式挖掘算法研究

基于分布式的频繁闭合模式挖掘算法研究

ID:33401587

大小:3.79 MB

页数:60页

时间:2019-02-25

基于分布式的频繁闭合模式挖掘算法研究_第1页
基于分布式的频繁闭合模式挖掘算法研究_第2页
基于分布式的频繁闭合模式挖掘算法研究_第3页
基于分布式的频繁闭合模式挖掘算法研究_第4页
基于分布式的频繁闭合模式挖掘算法研究_第5页
资源描述:

《基于分布式的频繁闭合模式挖掘算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、西安科技大学硕士学位论文基于分布式的频繁闭合模式挖掘算法研究姓名:张敏申请学位级别:硕士专业:计算机应用技术指导教师:杨君锐2011论文题目:基于分布式的频繁闭合模式挖掘算法研究专业:计算机应用技术硕士生:张敏(签名)指导教师:杨君锐(签名)摘要关联规则挖掘是数据挖掘研究中的热点问题之一,其目的是发现数据库中数据项之间存在的潜在联系。关联规则挖掘的重点任务是频繁模式挖掘。然而,由于频繁模式挖掘的复杂性,业界提出了频繁闭合模式挖掘问题。频繁闭合模式可以唯一地确定所有频繁模式完全集以及它们的准确支持度,且其规模远远小于频

2、繁模式。在单处理机上的频繁闭合模式挖掘算法研究方面,人们已经取得了许多成果。但随着分布式环境的日益普遍,使得传统串行算法的挖掘技术已无法解决分布式下的挖掘问题,因此,研究高性能的分布式频繁闭合模式挖掘算法显得尤为重要。本文在对典型关联规则挖掘算法进行较深入研究的基础上,将分布式思想引入关联规则挖掘中,提出了两种分布式频繁闭合模式挖掘算法,主要内容有以下两部分:第一部分提出了一种基于分布式的频繁闭合模式挖掘算法-PFCI_Miner。算法采用任务分布的主从方式,其中主处理器通过发送文中提出的前缀路径表(PrePthx)

3、将挖掘任务合理划分,而从处理器借助提出的存储树(Trac-tree)挖掘局部频繁闭合模式,最后由主处理器挖掘出全局频繁闭合模式集。另外,采用星形的拓扑结构,使数据通信只存在于主处理器与从处理器之间,而各从处理器之间无数据通信且不需要同步。实验结果表明,PFCI_Miner算法具有较好的效率。第二部分针对数据流及分布式算法的特点,提出了一种数据流下的分布式频繁闭合模式挖掘算法DSFC_Miner。该算法采用分段思想,挖掘每个数据流分段的临界频繁闭合模式,并创建相应的局部FCI_DS树保存临界频繁闭合模式。最后通过合并局

4、部FCI_DS树,在允许误差范围内挖掘得到当前数据流中的频繁闭合模式集。实验结果表明该算法是可行的。关键词:数据挖掘;关联规则;分布式算法;频繁闭合模式研究类型:理论研究Subject:TheResearchontheDistributedAlgorithmofMiningFrequentClosedPatternsSpecialty:ComputerApplicationTechnologyName:ZhangMin(Signature)Instructor:YangJunrui(Signature)ABSTRAC

5、TMiningassociationrulesisoneofthemostimportantproblemsindatamining,whichcoulddescribethepotentialrelationshipsbetweenitemsinthemagnanimousdata.Theminingofassociationrulesfocusesonthefrequentpatterns.Becauseofthecomplexityoffrequentpatterns,miningfrequentclosedp

6、atternshavebeenproposedtoimprovetheminingefficiency.Thesetoffrequentclosedpatternsisfarsmallerthanthesetoffrequentpatternsonscale.Thesetoffrequentclosedpatternsstillcontainenoughinformationofthefrequentpatternsanditsaccuratesupport.Peoplehavemademanyachievement

7、sintheresearchoffrequentclosedpatternsonasingleprocessor.Butasthedistributedenvironmenthasbecomemorecommonandthetraditionalserialalgorithmscannotsolvetheminingproblemsunderdistributedone,itisveryimportanttodesighthehigh-performancedistributedminingalgorithms.Th

8、isthesisanalyzestheperformanceoftypicalalgorithmsofassociationrules,andtheirvirtuesanddisadvantages.Fortheshortagesofthetraditionalalgorithms,twoalgorithmsbasedondistributed

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。