基于hadoop和mahout的k-means算法设计与实现

基于hadoop和mahout的k-means算法设计与实现

ID:35180673

大小:5.60 MB

页数:64页

时间:2019-03-21

基于hadoop和mahout的k-means算法设计与实现_第1页
基于hadoop和mahout的k-means算法设计与实现_第2页
基于hadoop和mahout的k-means算法设计与实现_第3页
基于hadoop和mahout的k-means算法设计与实现_第4页
基于hadoop和mahout的k-means算法设计与实现_第5页
资源描述:

《基于hadoop和mahout的k-means算法设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:密级单位代码10151UDC:@乂是洛事乂学V〇...全日制学术型硕±研究生学位论文MahoutK-Means基于Hadoop和的算法设计与实现王继重?t0指导教师赵子祥教授工学硕±?申请学位类别,学科(专业)名称计算机科学与技术学位授予单位大连海事大学2016年3月分类号密级UDC单位代码10151大连海事大学硕壬学位论文adooMahou-基于Hpt的KMeans算法

2、和设计与实现王继重指导教师赵子祥职称教授学位授予单位大连海事大学申请学位类别工学硕±学科(专业)计算机科学技术论文完成日期2016年3月答辩日期2016年3月答辩委员会主席K-MeansAlgorithmDesignandImplementationBasedonHadoopandMahoutA化esisSubmitted化DalianMaritimeUniversityInartialfulfillmentof化ereuirementsf

3、orthedereeofpqgMasterofEnineeringgbyWanJizhonggComuterScienceandTechnolo(pgy)ThesisSupervisor:ProfessorZhaoZixiangMar2016大连海事大学学位论文原创性声明和使用授权说明原创巧声明本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成""-Means算法设计与实现果,撰写成硕±学位论文基于Hadoop和Mahout的K。除论文中己经注明引用的内容外

4、,,对论文的研究做出重要贡献的个人和集体均己在文中明确方式标明。本论文中不包含任何未加明确注明的其它个人或集体己经公开发表或未公开发表的成果。本声明的法律责任由本人承担。学位论文作者签名:.学位论文版权使用授权书本学位论文作者及指导教师完全了解大连海事大学有关保留、使用研究生学位论文的规定:,即大连海事大学有权保留并向国家有关部口或机构送交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连海事大学可将本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论

5、文。同意将本学位论文收录到《中国优秀博硕±学位论文全文数据库》中国学术期刊(光盘版)电子杂志社)、《中国学位论文全文(数据库》中国科学技术信息研究所等数据库中,并W电子出版物形式出版发行()和提供信息服务。保密的论文在解密后遵守此规定。:□在解密后适用本授权书。本学位论文属于保密年"""不保蜜必(请在W上方框内打V)论文作者签名扛踩导师签名:亩A气\曰期:年月曰乃文^)/|5中文摘要摘要,互联网上的数据量与日俱增随着计算机技术的进步,从海量的数据中挖掘有价值的信息显得非常重要。单机在处理海量

6、数据时存在计算能力不足、存储空间有限和内存太小等问题,而将传统的算法迁移到Hadoop平台,经过并行化改进可tU有效的解决该问题。本文搭建的是基于Hadoop和Mahout的实验平台。Hadoop和Mahout都是a一Apche下开源项目。Hadoop是种分布式系统框架,M址out是云平台上的数据挖掘领域的算法库。Hadoop平台具有很强的计算能力,结合Mahout可W进行海量数据挖掘-。本文主要研究了数据挖掘技术中的KMeans算法,用Canopy算法-进行预处理后再使用KMeans算法聚C-kmean类,在前人研

7、究的anopys算法基础上提出了基于层次分析AHP的加权欧式距离的方法,并用改进的算法对UCI中()的KDD99标准数据集进行聚类和分析。本文主要工作如下:(1)介绍论文的相关技术,并对Hadoop框架和Maho山库进行说明。2-Means算法的优缺点分析研究K,用Cano算法进行数据预处理后再进()py-行KMeans算法聚,类可W减少噪声点对算法的影响,更好地确定K值和聚类中也。本文在此基础上提出基于AHP的加权欧氏距离的方法,可W更好地适用于多维海量数据集。3-Means分析Mahout库中的K算法并改进,

8、对标准数据集进行聚类分析()后,改进的算法在算法稳定性和聚类准确率上有了提升,并且可W对海量数据进行处理。K-Meansoo关键词!;云

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。