欢迎来到天天文库
浏览记录
ID:32749459
大小:59.79 KB
页数:5页
时间:2019-02-15
《基于云计算平台hadoop的并行k-means聚类算法设计研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于云计算平台Hadoop的并行k-means聚类算法设计研究李莉金肯职业技术学院摘要:随着信息化时代的到來,也相应提升了科技的发展。现阶段网络技术的发展也不断为数据库的发展提供技术支持。在实际应用网络技术时常常会岀现大量的数据需要处理,人们开始致力于探讨致聚类研究课题,但是随着不断深入的盐分分析也显现出较多的问题,例如出现了新的计算环境还有海量数据等。木文主要是探讨分析了基于云计算平台Hadoop的并行k-means聚类算法设计研究,并且在此基础Z上提供了新的设计算法方式以及应对策略。根据大量的数据研究显示,并行k-means聚类算法设计的加速
2、比较为良好,并且具有优质的数据伸缩率性能以及扩展率,有效作用于挖掘和分析海量数据。关键词:云计算;平台Iladoop;并行k-means;聚类算法设计;研究探讨;0前言现阶段,数据挖掘当中比较重要的课题在于聚类算法设计,该算法的主要内容在于了集合组成抽象对象或者物理对象,并转变为与其相类似的对象簇群的算法过程。由聚类形成的簇群主要会集合一组数据对象,并口该对象之间存在较高的相似度,但是不同簇群当屮的对彖具有较大的差异性。当前的社会企业,科研组织,政府部门以及商业领域等都广泛应用数据库技术,并且在数据存储方面都是通过不同形式实现的。现阶段需要亟待解
3、决的问题就是怎样加工海量数据进行处理和存储,在此基础之上如何寻找有价值的数据信息,并且可以应用在实际工作当中。针对现在产生和存在的海量数据,现有的聚类算法已经不能满足该数据的要求,尤其是在空间复杂性和时间复杂性上,这就需要聚类算法进行全面深化地研究和解决。针对以上问题的解决最重要的措施就是将并行k-means处理方式应用在聚类算法当中,这样可以创新并行聚类算法,显著加强该算法处理数据的实效性以及功能。云计算主要是当前比较新颖的商业计算模型,Hadoop云计算平台可以实现并行处理和开发海量数据,该平台最重要的优势在于具有较强的扩容能力以及运行效率,
4、较低的成本,具有显著的优势性能°Hadoop云计算平台主要是由MapReduce计算模型以及HDFS两部分组成。MapReduce属于分布式编程模型,具有较高的效率,主要是实现数据集的生成和处理,该计算模型主要是应用Iladoop云计算平台屮的框架,并且需要Map函数以及Reduce函数,并且可以将运行参数的输出位置以及输入位置进行明确,加工大数据文件切割为较多数据块。其次就是该框架可以将输入当做一组键值对,在该环节,框架可以实现调用用户自行设置的函数,并且可以有效处理每一组键值对。其次就是为了确保Reduce可以实现有效输入,在Shuffle环
5、节,MapReduce框架主要是利用Http为Reduce提供键值对。再者就是Reduce环节,该环节就可以将所涉及到的所有数据进行浏览,并且可以实现分别对应不同的Key,对用户自行设定的Reduce函数进行有效执行。最后就是输出环节,该环节主要会将Reduce输岀的结果对应显示在输出目录上,这样就完后了整体MapReduce算法。I1DFS主要是应用M/S结构,每一个集群主要的组成为数据节点以及管理节点,每一个节点属于独立的PC端。在实际应用时,HDFS高度相似于单机上的文件系统,其主要功能在于可以创建文件目录,并且实现文件的复制,查看,新建以
6、及删除等。HDFS的底层主要是可以切割文件并且将其分为若干块,之后在不同的数据节点之上将其分散储存。需要注意的是,这些块功能再次分为较多子项,并且存储在不同类型的数据节点Z上,这样就可以实现容错功能。屮心服务器主要是负责数据节点的管理,对其客户端访问权限以及文件的名字空间等。数据节点可以实现对节点存储的管理和控制。HDSF的核心功能在于数据节点的管理,可以有效加工某一组数据结构进行维护,还可以将每一个文件的切割情况,块的来源以及状态数据信息等进行详细记录。1基于云计算平台Hadoop的并行k-means聚类算法设计由前而的分析我们能够得出,基于云
7、计算平台Hadoop的并行k-means聚类算法设计,用户最主要的工作就是将Reduce函数以及Map函数进行设计和实现,还附带输出键值对以及输入键值对,以及包括Reduce函数以及Map函数的具体逻辑算法等。针对串行的k-means聚类算法设计主要的算法流程为:第一步,先随意选择K个样本,并将其作为聚簇创始的中心点,第二步,迭代,首先主要按照不同聚簇的中心点坐标,并且将上述选择的样本下发到较近距离的聚簇,其次就是将不同聚簇中包含的样本的平均值进行计算。第三步,收敛。从上述k-means聚类算法设计的主要流程能够得岀,其中最重要的算法工作在于将选
8、择的样本下发到较近距离的聚簇,这样就可以实现相互独立选择的样本,这时就可以将以上两个步骤进行并行处理和执行。在进行迭代时,将相同的操作方
此文档下载收益归作者所有