基于MapReduce的K-Means算法设计与实现

基于MapReduce的K-Means算法设计与实现

ID:41905837

大小:329.99 KB

页数:19页

时间:2019-09-04

基于MapReduce的K-Means算法设计与实现_第1页
基于MapReduce的K-Means算法设计与实现_第2页
基于MapReduce的K-Means算法设计与实现_第3页
基于MapReduce的K-Means算法设计与实现_第4页
基于MapReduce的K-Means算法设计与实现_第5页
资源描述:

《基于MapReduce的K-Means算法设计与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于MapReduce的K-Means算法的设计与实现西南交通大学信息学院主讲人:杨浩导师:李天瑞教授概要研究背景基于MapReduce的K-Means算法设计实验结果和分析K-Means简介研究背景大数据时代的来临数据呈现爆炸性增长传统的平台无法满足需求亟需新的平台云计算的出现天才般的MapReduce计算框架开源的Hadoop平台聚类算法和大数据数据越大,聚类效果越好K-Means简介输入:聚类个数K,以及包含N个数据待聚类数据集输出:聚类中心不再变化的K个聚类中心算法过程:从从数据集中随机选取K个数据作为中心测量所有数据到每个中心的距离,并把它

2、归到最近的中心的类重新计算已经得到的各个类的中心迭代2~3步直至新的中心与原中心的距离小于指定阈值,算法结束K-Means算法流程图K-Means示例基于MapReduce的K-Means算法设计算法设计伪代码Map伪代码Partion伪代码Reduce伪代码OutputFormat伪代码算法设计job:计算新的聚类中心Map:输入:输出:<所属类,数据>Reduce:输入:<,相应数据的集合>输出:<,新的聚类中心>迭代job,直至相连两次的聚类中心小于阈值流程图Map伪代码publicvoidmap(Objectkey,

3、Textvalue,OutputCollectoroutput,Reporterreporter){Stringline=value.toString().trim();intsort=0;//聚类类别doubleminDis=Double.MAX_VALUE;for(inti=1;i<=K;i++){doubletmpDis=calDis(i,line);//数据和类i间的距离if(tmpDis

4、e(sort),value);}Partition伪代码publicclassKeyPartitionimplementsPartitioner{@OverridepublicintgetPartition(Kkey,Vvalue,intn){//TODOAuto-generatedmethodstubreturnMath.abs(key.hashCode())%n;}@Overridepublicvoidconfigure(JobConfarg0){//TODOAuto-generatedmethodstub}}Reduce伪代

5、码publicvoidreduce(IntWritablekey,Iteratorvalues,OutputCollectoroutput,Reporterreporter){introws=0,i=0;//rows表示数据条数doublerecords[]=newdouble[COLS];//COLS为全局变量,表示属性的个数while(values.hasNext()){rows++;Stringtmp=values.next().toString();StringTokenizeritr=newS

6、tringTokenizer(tmp);i=0;while(itr.hasMoreTokens()&&iextendsMult

7、ipleTextOutputFormat{//使输出文件名为类型K的值,本例为1、2、3@OverrideprotectedStringgenerateFileNameForKeyValue(Kkey,Vvalue,Stringname){returnkey.toString();}@OverrideprotectedKgenerateActualKey(Kkey,Vvalue){returnnull;}}实验结果和分析开发环境实验数据运行结果结果分析开发环境RedHatLinux操作系统Hadoop开源软件,版本Hadoop-1.0.3节

8、点数目:10节点配置:4个CPU,16核,内存12GJDK1.7.0Eclipse-SDK-4.2.1-li

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。