欢迎来到天天文库
浏览记录
ID:35070892
大小:3.67 MB
页数:60页
时间:2019-03-17
《基于遗传算法的分布式数据挖掘mapreduce架构研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于遗传算法的分布式数据挖掘MapReduce架构研究StudyontheMapReduceFrameworkforGeneticAlgorithmbasedDistributedDataMining学科专业:计算机技术工程研究生:韩来明指导教师:宫秀军副教授天津大学计算机科学与技术学院二零壹伍年拾贰月摘要近年来,随着信息技术的快速发展,直接或间接的产生了难以估量的海量数据,这对传统数据挖掘算法提出了新的挑战,如何提高海量数据环境下传统数据挖掘算法的通用性和性能成为当前的研究热点。为了解决这一问题,研究人员将传统数据挖掘算法与新兴技术如云计算平台
2、等融合,利用分布式计算能力提高算法的性能,取得了良好效果。但是由于数据挖掘算法种类繁多,单一的数据挖掘算法需要特定的实现模式,没有通用的架构满足数据挖掘算法的多样性,并能同时提高算法的性能。本文在前人经验的基础上,提出了一种基于遗传算法的分布式数据挖掘MapReduce架构,旨在帮助用户更通用的处理数据挖掘算法并提升算法的性能。架构要素之一的MapReduce提供良好的分布式计算能力,另一要素遗传算法具有良好的全局搜索和优化能力,通过模拟种群进化的方式搜索到最优解,使得用户只需要实现遗传算法而不必担心算法的并行化。本文的主要贡献如下,提出了一种基
3、于遗传算法的分布式数据挖掘MapReduce架构,架构分为核心层和用户层,核心层封装了MapReduce的操作,用户层提供给用户扩展接口,通过具体问题实现具体的遗传算法,可以有效的处理数据挖掘算法在海量数据方面的应用。架构包括六个组件,其中Diver组件是框架的主要部分,主要功能是实现用户交互并负责启动集群上的Jobs;Generator组件主要作用是通过调用用户层的遗传算法实现,然后配合Driver启动Job完成种群的进化;Terminator组件的作用是在Generator过程中判断是否满足终止条件;Initialiser组件负责初始化种群,
4、该组件是可选的;Migrator组件负责种群迁移策略的实现,由用户层实现;最后的SolutionFilter组件则是将符合条件的个体筛选出来,每个组件相互协作完成架构的功能。本文用三个算法对架构性能进行验证,首先设计实现了针对K-Medoids的遗传算法,以聚类准确率为个体适应度值,利用MapReduce加强聚类计算,实验显示得到良好的聚类效果。其次设计实现了针对旅行商问题(TravelingSalesmanProblem)的遗传算法,以个体所经过城市距离的倒数作为适应度函数,距离越短个体的适应度值越高,实验结果表明,在架构中运行的TSP算法能有
5、效处理大数据并且比同等级的算法能更快发现最优解。最后,设计实现了针对特征子集选择(FeatureSubsetSelection)问题的遗传算法,以特征选择的分类准确率作为适应度值,实验结果表明,运行在架构下的FSS算法能更快速收敛并提高了准确率。综上,本文提出的基于遗传算法的分布是数据挖掘MapReduce架构在处理海量数据环境下的数据挖掘算法时具有良好的表现,通过特定问题的遗传算法实现,利用分布式计算提高算法性能,同时利用遗传算法的全局搜索优化能力快速找到最优解,研究表明,该架构帮助数据挖掘算法在处理海量数据时效果和性能得到提升。关键词:海量数
6、据MapReduce遗传算法数据挖掘架构ABSTRACTWiththerapiddevelopmentoftheinformationtechnologyinrecentyears,generatedincalculablemassdatabydirectlyorindirectlyway,whichpresentedanewchallengetotraditionaldataminingalgorithms,howtoimprovetheversatilityandperformanceoftraditionaldataminingalgori
7、thmsundermassivedataenvironmentbecomearesearchhotspot.Tosolvethisproblem,theresearcherintegrationtraditionaldataminingalgorithmsandemergingtechnologiessuchascloudcomputingplatform,theuseofdistributedcomputingcapabilitiesimprovetheperformanceofthealgorithmandachievedgoodresult
8、s.However,duetoawiderangeofdataminingalgorithms,asingledataminingalg
此文档下载收益归作者所有