欢迎来到天天文库
浏览记录
ID:31975658
大小:3.34 MB
页数:68页
时间:2019-01-29
《基于mapreduce模型的并行计算平台的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、浙江大学硕士学位论文图目录图1.1Google典型集群⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一6图1.2论文组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯8图2.1MapReduce执行流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..12图2.2基于MapReduce的程序在Google源代码树上的增长趋势⋯⋯⋯⋯⋯⋯⋯.16图2.3HDFS结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.20图2.4Map/reduce在Hadoop上的实现流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。2l
2、图2.5应用框架的任务控制流图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯22图3.1博客产品uV增长趋势图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..25图3.2任务粒度与线程池实现动态均衡⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯28图3.3经过Combiner局部规约后的执行流⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯30图3.4并行计算平台总体框架⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯33图3.5三点式架构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。35图3.6各节点交互序列图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯
3、⋯⋯⋯⋯34图3.7主控节点(Master)类图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。37图3.8分派节点(DN)类图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯38图3.9服务节点(SN)类图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯40图4.1分布式文件系统硬件拓扑⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯42图4.2分布式文件系统架构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯42图4.3文档ID(DoclD)与目录的映射算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.43图4.4DFS工作流程图⋯⋯⋯⋯⋯⋯⋯
4、⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一44图4.5文件读取流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.46图4.6文件替换流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一47图4.7文件上传流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..48图4.8文件删除流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一49图5.1单机处理与并行处理性能比较⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。53图5.2M印处理单元串行处理文件数与系统性能⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.54图5.3排序运算执行
5、时间随Reduce个数变化图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..55图5.4(a)输入过程的数据传输速率⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯56图5.4(b)从M印到Reduce过程的传输速率⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.57图5.4(c)结果输出过程的数据传输速率⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯57111浙江大学硕士学位论文表目录表5.1集群服务器配置⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.51表5.2访问日志格式说明⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..52IV浙江大学研究生学位论文独创性声明
6、本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得逝望盘堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢意。⋯一躲梦涛⋯~一洲日学位论文版权使用授权书本学位论文作者完全了解逝姿盘堂有权保留并向国家有关部门或机构送交本论文的复印件和磁盘,允许论文被查阅和借阅。本人授权逝姿叁鲎可以将学位论文的全部或部分内容编入有关数据库进行检索和传播,可以采用影印
7、、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签名:蓦乏跨签字日期:易。扩年否月‘日导师签名:签字日期:夕u舻年‘月G日浙江大学硕士学位论文第2章MapReduce相关技术介绍对。2.3实现框架MapReduce接口可以有很多种不同的实现【11】【20】。应当根据不同的环境选择不同的实现。比如,适用于小型共享内存的实现,基于大型NUMA多处理器系统的实现041,还有基于大规模计算机集群的实现。下面是Google广泛使用的计算环境:用交换机网络连接的,由普通PC构成的超大集群1151。在
8、这样的环境里:1)每个节点通常是双x86处理器,运行在Linux上,每台机器2-4GB内存;2)使用常用的网络设备。一般是百兆或千兆网络,一般情况下都用不到一半的网络带宽;3)一个集群中常常有成百上千台机器,所以,若干台机器的故障是难免的。4)存储
此文档下载收益归作者所有