欢迎来到天天文库
浏览记录
ID:33144174
大小:2.03 MB
页数:68页
时间:2019-02-21
《基于cluster结构的并行关联规则挖掘算法研究和实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、华中科技大学硕士学位论文基于Cluster结构的并行关联规则挖掘算法研究和实现姓名:周建红申请学位级别:硕士专业:计算机应用技术指导教师:李庆华2002.5.10华中科技大学硕士学位论文摘要(数据挖掘中的一个重要问题是关联规则挖掘。由于进行挖掘的数据库规模都是极其庞大的,而且以更快的速度在增长,因此迫切需要设计高效和可扩展算法来进行关联规则挖掘。并行化成为了解决现有关联规则挖掘方法串行瓶颈问题、提供可扩展的数据规模和改进响应时间的一个有效途径。/川数据库挖掘与并行处理技术互相渗透、互相结合,成为数据
2、挖掘发展的重要特征,也是并行处理技术应用发展的一个重要方面。将并行处理技术与关联规则挖掘技术相结合,在研究了Cluster结构上的并行关联规则挖掘算法基础上,设计了PHR算法(ParalleHybridRecollectionAlgorithm)和PHR.G算法(ParalleHybridRecollection.GlobalAlgorithm)两个并行关联规则挖掘算法,并在曙光3000进行设计实现和性能分析。PHR算法和PHR-G算法是基于Cluster体系结构设计的关联规则挖掘算法。算法采用了混
3、合数据分布模式,有效地发挥了垂直和水平两种数据分布方式在不同迭代中效率;算法使用一定方法,通过记忆在“l迭代后产生的全局信息,使k迭代中使用已载的全局信息,从而更高效地进行候选集操作和全局修剪,生成更小的候选集,减小消息传递量;PHR-G算法还按频繁集的等价类进行数据重划分,以利用数据垂直分布的本地计算性进行异步计算,消除了同步费用,提高算法的并行效率:在PHR—G算法的动态负载平衡策略中,实现在k>3的迭代中大颗粒负载平衡;并对算法进行了相关性能分析。关键词:数据挖掘;关联规则;Cluster结构
4、;数据分布;数据划分;负载平衡华中科技大学硕士学位论文AbstractAnimportantproblemofDataMining(DM)isAssociationRulesMining(ARM).ThedatabasesinvolvedinDMareverylarge.Whatmore,thesizeofthedatabaseswillgrowatfullspeed.Therefore,itisimperativetodesignefficientandscalablealgorithmstomi
5、neassociationrulesParallelismiSasolutiontOrelievecurrentARMme血odsfromthesequentialbottleneck.tOprovidescalabilitytOmassivedatabaseandtoimproveresponsetime.ThecombinationoftheparallelprocessingtechniqueandDMtechniquebecomesnotonlyamaincharacteristicofDM
6、technologybutalsoamaindirecfionofapplicationdevelopmentinparallelprocessingtechnology.BycombiningparallelprocessingtechniquewithDMtechnique,ParallelAssociationRules(PARM)MiningisdiscussedbasedonClusterarchitecture.TowPARMalgorithms⋯一ParallelIq[ybridRec
7、ollectionAlgorithm(PHR)andParallelHybridRecollection·GlobalAlgorithm(PHR—G)aredesigned.ThetWOalgorithmsareimplementedandanalyzedbasedonparallelprogrammingenvironmentinDawning3000.PHRalgorithmandPHR—GalgorithmaredesignedforClustersystem,whichisashared—n
8、othingarchitecture.Algorithmsusehybridlayoutpattern.ThehybridlayoutCantakeadvantageofthemeritofthehorizontaldatalayoutandverticaldatalayoutindifferentpasses.ArecollectionmethodisusedinPHRalgorithmandPHR-Galgorithm,whichrecordstheglobali
此文档下载收益归作者所有