基于hadoop云计算平台的k

基于hadoop云计算平台的k

ID:22281336

大小:52.00 KB

页数:5页

时间:2018-10-28

基于hadoop云计算平台的k_第1页
基于hadoop云计算平台的k_第2页
基于hadoop云计算平台的k_第3页
基于hadoop云计算平台的k_第4页
基于hadoop云计算平台的k_第5页
资源描述:

《基于hadoop云计算平台的k》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于Hadoop云计算平台的K-->第一章绪论第一节研究目的及意义随着现代计算机科学的飞速发展以及互联网的普及,世界已经进入了一个高度信息化的时代,各式各样数据量庞大的信息充斥在人们周围。在信息量越来越大的数据面前,传统基于数据库存储的解决方案显得越来越捉襟见肘[1]。如何利用现代计算机的高计算能力,在无人工监督情况下自动地从大数据中提取出潜在的、对人们生产生活有价值的信息就成为了一个迫在眉睫的问题[2]。聚类分析是一种根据不同规则将输入的原始数据集进行分类的方法[3]。想要从数据中提取信息,首要任务就是将其分类处理,因此聚类分析是数据挖掘过程的第一个步骤。随着移动互联网、物联

2、网以及人工智能的发展,apReduce等[10-12]。作为世界范围内首次公布的关于分布式云计算系统架构搭建方案的范本,Google提出的三驾马车至今都有着非常大的影响力[13]。...............第二章相关技术研究与分析第一节Hadoop云计算平台在各类大数据处理框架之中,Hadoop最富盛名,高效、可靠、可伸缩是它最显著的特点,也因此被企业及开发者广泛推崇与研究,它常被用来对大数据进行储存、处理以及分析等操作。...............第二节系统架构概述Hadoop最初由Apache基金会投入开发,它的基本框架遵循了Google早前公布的三大核心组件,即轰动

3、一时的GFS、MapReduce以及BigTable。它的诞生使得用户可以利用现代大规模的集群取代传统的单机服务器进行高速存储和运算操作,这也为开发分布式大数据处理程序奠定了坚实的基础。Hadoop有许多特点,例如效率高、可靠性强、容错能力好以及部署运维成本低等。下面对其特点详细描述。...............第三章聚类分析系统的设计与实现............................19第一节系统简介...........................................19第二节底层环境搭建............................

4、............21第四章K-Means并行算法的改进.............................32第一节传统K-Means算法...................................32第二节K-Means算法改进方案................................34第四章K-Means并行算法的改进第一节、传统K-Means算法作为最典型的聚类算法之一,K-Means算法已经问世了半个世纪。作为典型的基于样本距离计算类簇的算法,K-Means算法的效率相对较高,因此无论在理论研究还是实际生产中都被大规模的使用,具有很高

5、的地位及影响力。算法的改进研究也有许多,例如基于随机采样原理的RandomK-Means算法、增量处理原始数据集OnlineK-Means算法等。K-Means算法思路:首先需要用户确定最终聚类结果的簇数目(即K值),然后在原始数据集中随机选择数量为K的初始类簇中心。之后就是反复迭代的过程,需要计算全量的数据对象到各个类簇中心的间距,并依据间距将它们合并到各自的类簇中。待所有数据点归类后,计算每个类簇内对象的平均间距,并用新的类簇中心替换掉原始中心。这个迭代过程一直持续直到目标函数收敛截止。而目标函数的收敛标志则是在一次分类结束后,重新计算新的类簇中心并没有发生变化,则算法结束

6、。结论本文通过对分布式云计算平台和聚类算法在国内外的发展现状进行深入研究分析,设计并实现了基于Hadoop平台的聚类分析系统,并使用该系统对K-Means算法进行了并行化改进。通过本课题的研究,得出如下结论:聚类分析系统方面:1.系统的分层设计使得各层之间对实现进行隔离,可以透明地修改各层内部具体实现,有效的提高了系统的可维护能力。在实际测试过程中,用户可以通过系统快速地配置实验环境,同时系统能够提供稳定的并行计算环境。2.基于模块化设计的中间逻辑层,在修改系统功能时可以高效的复用原有代码,有效的加快了系统开发、调试的速度。基于REST的接口设计能够稳定地处理eans并行算法方

7、面:1.在本课题设计的聚类分析系统提供的云计算环境下,改进的并行随机采样较于传统的初始化采样方法在速率上有显著提升。通过并行随机采样和预处理方法的改进,使得算法正确率有所提升。同时K-Means并行算法具有更好的收敛性。2.当数据量较大时,改进的K-Means并行算法与传统K-Means算法相比,运行速度有很大提升。并且改进算法的加速比随着机器节点增加能够显著的提高。综上,本文设计的基于Hadoop分布式云计算平台的聚类分析系统能够提供高效、稳定、可配置的聚类分析服务。改进的K-Means并

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。