欢迎来到天天文库
浏览记录
ID:33388079
大小:4.39 MB
页数:63页
时间:2019-02-25
《基于云计算的聚类算法的mapreduce化研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、万方数据分类号UDC密级学位论文基于云计算的聚类算法的MapReduce化研究作者姓名:指导教师:申请学位级别:学科专业名称:论文提交日期:学位授予日期:评阅人:胡飞翔王翠荣教授东北大学信息科学与工程学院硕士学科类别:专业学位计算机技术2012年6月论文答辩日期:2012年6月答辩委员会主席:才书训教授唐勇教授才书训教授东北大学2012年6月万方数据AThesisinComputerTechnologyResearchonMapRedueofClusteringAlgorithmsBasedonCloudComputingByHuFeixian
2、gSupervisor:ProfessorWangCuirongNortheasternUniversityJune2012万方数据独创性声明本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成果除加以标注和致谢的地方外,不包含其他人已经发表或撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:/1躐色笋瀹日期:2.:D/2、多./j‘学位论文版权使用授权书本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文的规定:
3、即学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部或部分内容编入有关数据库进行检索、交流。作者和导师同意网上交流的时间为作者获得学位后:半年口一年口一年半口两年彳学位论文作者签名:/娥色乡搁签字日期:Z012.占、,,一竹莩文亥丫唯易Z名期签日币≠师字导签万方数据东北大学硕士学位论文摘要基于云计算的聚类算法的MapReduce化研究摘要聚类算法的研究有着很长的历史,几十年来,其重要性及与其他研究方向的交叉性得到人们的肯定。聚类算法作为一种非监督学习的方法,是包括模式识别、数据挖
4、掘、图像分析、机器学习等诸多领域数据统计分析的一种常用技术。随着互联网上数据的快速增长,在单机上对大规模数据进行聚类时会遇到内存容量和内核处理速度的瓶颈问题,难以满足实际应用的需求。云计算是一种利用互联网实现随时随地、按需、便捷地访问共享资源池的计算模式。云计算是网格计算、并行计算和分布式计算的发展,具有处理大规模数据的能力。本文旨在利用云计算平台的大规模数据处理能力,解决聚类算法所面临的大规模数据问题。本文分析了云计算的体系架构,研究了MapReduce编程模型和HDFS分布式文件系统,介绍了聚类算法的相关技术。将ISODATA算法与MapR
5、educe编程模型相结合,实现了基于MapReduce的ISODATA算法。针对ISODATA算法的不足,提出了一种改进的算法WISODATA,并实现了基于MapReduce的WISODATA算法。从UCI机器学习库上选取知名数据集,分析和比较了ISODATA算法、基于MapReduce的ISODATA算法、WISODATA算法和基于MapReduce的WISODATA算法的聚类结果,实验结果表明四种算法聚类结果具有较高的准确率,WISODATA与基于MapReduce的WISODATA算法均优于ISODATA与基于MapReduce的ISOD
6、ATA算法。通过在不同大小数据集上的实验分析了基于MapReduce的ISODATA与WISODATA算法的性能,实验结果表明基于MapReduce的ISODATA与WISODATA算法具有优良的加速比、数据伸缩率和扩展率,适合运行于云计算平台,可以有效地应用于大规模数据的处理。关键词:云计算;聚类算法;MapReduceISODATA;WISODATA—III—万方数据ResearchonMapRedueofCBasedonCloudComputingAbstractTheresearchonclusteringalgorithmshasal
7、onghistory.Fordecades,theimportanceandcrossoverwiththeotherdirectionsofresearchareaffirmedbypeople.Clusteringasamethodofunsupervisedlearningisacorn/nontechniqueforstatisticaldataanalysisinmanyfields,includingpattemrecognition,datamining,imageanalysisandmachinelearning.Withra
8、pidgrowthofIntemetdata,clusteringlarge—scaledataonasinglecomputerwillencoun
此文档下载收益归作者所有