基于mapreduce模型的并行计算平台的设计与实现

ID：31975658

大小：3.34 MB

页数：68页

时间：2019-01-29

资源描述：

《基于mapreduce模型的并行计算平台的设计与实现》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、浙江大学硕士学位论文图目录图1．1Google典型集群⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一6图1．2论文组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯8图2．1MapReduce执行流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．．12图2．2基于MapReduce的程序在Google源代码树上的增长趋势⋯⋯⋯⋯⋯⋯⋯．16图2．3HDFS结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．20图2．4Map／reduce在Hadoop上的实现流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。2l

2、图2．5应用框架的任务控制流图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯22图3．1博客产品uV增长趋势图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．．25图3．2任务粒度与线程池实现动态均衡⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯28图3．3经过Combiner局部规约后的执行流⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯30图3．4并行计算平台总体框架⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯33图3．5三点式架构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。35图3．6各节点交互序列图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯

3、⋯⋯⋯⋯34图3．7主控节点(Master)类图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。37图3．8分派节点(DN)类图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯38图3．9服务节点(SN)类图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯40图4．1分布式文件系统硬件拓扑⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯42图4．2分布式文件系统架构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯42图4．3文档ID(DoclD)与目录的映射算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．43图4．4DFS工作流程图⋯⋯⋯⋯⋯⋯⋯

4、⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一44图4．5文件读取流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．46图4．6文件替换流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一47图4．7文件上传流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．．48图4．8文件删除流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一49图5．1单机处理与并行处理性能比较⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。53图5．2M印处理单元串行处理文件数与系统性能⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．54图5．3排序运算执行

5、时间随Reduce个数变化图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．．55图5．4(a)输入过程的数据传输速率⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯56图5．4(b)从M印到Reduce过程的传输速率⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．57图5．4(c)结果输出过程的数据传输速率⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯57111浙江大学硕士学位论文表目录表5．1集群服务器配置⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．51表5．2访问日志格式说明⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．．52IV浙江大学研究生学位论文独创性声明

6、本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得逝望盘堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢意。⋯一躲梦涛⋯～一洲日学位论文版权使用授权书本学位论文作者完全了解逝姿盘堂有权保留并向国家有关部门或机构送交本论文的复印件和磁盘，允许论文被查阅和借阅。本人授权逝姿叁鲎可以将学位论文的全部或部分内容编入有关数据库进行检索和传播，可以采用影印

7、、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签名：蓦乏跨签字日期：易。扩年否月‘日导师签名：签字日期：夕u舻年‘月G日浙江大学硕士学位论文第2章MapReduce相关技术介绍对。2．3实现框架MapReduce接口可以有很多种不同的实现【11】【20】。应当根据不同的环境选择不同的实现。比如，适用于小型共享内存的实现，基于大型NUMA多处理器系统的实现041，还有基于大规模计算机集群的实现。下面是Google广泛使用的计算环境：用交换机网络连接的，由普通PC构成的超大集群1151。在

8、这样的环境里：1)每个节点通常是双x86处理器，运行在Linux上，每台机器2-4GB内存；2)使用常用的网络设备。一般是百兆或千兆网络，一般情况下都用不到一半的网络带宽；3)一个集群中常常有成百上千台机器，所以，若干台机器的故障是难免的。4)存储

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 68



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于mapreduce模型的并行计算平台的设计与实现

基于mapreduce模型的并行计算平台的设计与实现

相关文章

相关标签