GFS与MapReduce实现研究及其应用 - PKU Search …

ID:8405095

大小:1.16 MB

页数:39页

时间:2018-03-20

GFS与MapReduce实现研究及其应用 - PKU Search …_第1页
GFS与MapReduce实现研究及其应用 - PKU Search …_第2页
GFS与MapReduce实现研究及其应用 - PKU Search …_第3页
GFS与MapReduce实现研究及其应用 - PKU Search …_第4页
GFS与MapReduce实现研究及其应用 - PKU Search …_第5页
资源描述:

《GFS与MapReduce实现研究及其应用 - PKU Search …》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、GFS与MapReduce的实现研究及其应用杨志丰导师:李晓明教授2008-06-051大纲引言TFS分布式文件系统MapReduce分布式并行计算框架总结2本文工作的出发点TheGoogleFileSystemACMSOSP2003被引用357MapReduce:SimplifiedDataProcessingonLargeClustersUSENIXOSDI2004被引用2243引用次数来自GoogleScholar动机开源实现Hadoop,KFS支持天网组内工作的需要大量数据:网页(以InfoMall网

2、页库格式存储),搜索引擎日志,URL数据,CDAL元数据,NLP语料库、词典;网页索引数据,Web链接图;CWT100G,CWT200G,中文网页分类评测测试集,其他机构的数据(如TREC相关数据:terabytetrack)研究课题搜索引擎平台海量数据处理的基础设施改进系统设计4大纲引言TFS分布式文件系统MapReduce分布式并行计算框架总结5系统结构一个master,若干个chunkserver,若干个client存储大文件(GB-TB)一个文件由若干个定长块(chunk,64MB)块是普通linux

3、文件,有若干个复本(replica)6GFS中的记录追加写操作记录追加写原子性(atomic)多写者并发Lease机制保证一致性结果数据成功:至少成功的在一个偏移处写入了一次;块末尾可能产生填充失败:产生不一致和不完整的数据ClientMasterSecondaryReplicaAPrimaryReplicaSecondaryReplicaB7TFS中的记录追加写操作记录追加写原子性多写者并发无需lease机制变长块写缓存与新块申请结果成功:数据被完整的写入一次,且各个复本一致失败:数据没有被写入Client

4、ReplicaCReplicaAReplicaBMaster8实验设置一台master,九台chunkserverDell2850:2IntelXeon,2GB内存,7200rpmSCSI硬盘6块组成一个软件RAID-0客户端2GB内存,其余同上网络所有机器通过1Gbps全双工以太网卡与一个1Gbps交换机连接9记录追加写的效率一台客户机上启动不同个客户线程,网络上限125M峰值95MB/s,达理论上限的75%(GFS为50%)另一个实验中,多客户机多进程并发追加,总速率可达380MB/s10读操作的效率峰值

5、90MB/s,理论上限的72%(GFS为75%)11TFSShell1213大纲引言TFS分布式文件系统MapReduce分布式并行计算框架总结14例子:词频统计中国人民美国人民中国人民银行美国银行中国,1人民,1美国,1人民,1中国,1人民,1银行,1美国,1银行,1中国,1中国,1银行,1银行,1美国,1美国,1人民,1人民,1人民,1中国,2银行,2美国,2人民,3mapshufflereduce15MapReduce运行流程16系统结构17系统的优化忽略失败任务连接输出结果为一个文件Google实现中

6、R具有双层含义:Reduce任务数;输出文件个数TFS提供的concatFiles接口串行版MapReduce系统实时监控1819大纲引言TFS分布式文件系统MapReduce分布式并行计算框架总结20本文贡献提出了一个与GFS不同的设计方案,使得记录追加写的效率大大提升设计和实现了一个稳定的分布式文件系统TFS,并已用于实际的研究工作设计和实现了MapReduce分布式并行计算系统,并评测了它的性能在我们的MapReduce系统基础上实现了各种搜索引擎系统常见的应用总结了在分布式系统的设计和实现的实践中得到

7、的一些宝贵的经验21未来工作继续完善系统,提高系统性能,并根据用户反馈增加必要的新特性构建一个海量数据处理的基础设施是我们研究小组的一个长期的目标,下一步是bigtable系统为进一步简化程序员工作,在MapReduce的基础上设计和实现并行STL算法库总结和研究MapReduce,MapReduceMerge,Dryad等模型的表达能力,探索新的模型22谢谢!23致谢感谢我的导师李晓明教授三年来对我的教诲和研究工作论文工作的宝贵指导。李老师严谨的治学态度和高瞻远瞩的洞察力是我终身学习的楷模。感谢闫宏飞老师大

8、三时把我带入网络实验室这个大家庭,在实验室学习期间给予我工作学习的指导和对我各方面的能力的锻炼,以及对我本科毕业设计和毕业论文的关心和指导。感谢彭波老师研究生期间对我研究工作的指导和各方面的关心和帮助。彭老师谦虚温和的态度总是让人如沐春风,清晰严谨的思路始终是我学习的榜样。感谢北京大学网络实验室这个温暖的大家庭,从大三进入实验室实习起,我在这里度过了5年的岁月。实验室提供了如此好的环境和宽松的氛围,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
正文描述:

《GFS与MapReduce实现研究及其应用 - PKU Search …》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、GFS与MapReduce的实现研究及其应用杨志丰导师:李晓明教授2008-06-051大纲引言TFS分布式文件系统MapReduce分布式并行计算框架总结2本文工作的出发点TheGoogleFileSystemACMSOSP2003被引用357MapReduce:SimplifiedDataProcessingonLargeClustersUSENIXOSDI2004被引用2243引用次数来自GoogleScholar动机开源实现Hadoop,KFS支持天网组内工作的需要大量数据:网页(以InfoMall网

2、页库格式存储),搜索引擎日志,URL数据,CDAL元数据,NLP语料库、词典;网页索引数据,Web链接图;CWT100G,CWT200G,中文网页分类评测测试集,其他机构的数据(如TREC相关数据:terabytetrack)研究课题搜索引擎平台海量数据处理的基础设施改进系统设计4大纲引言TFS分布式文件系统MapReduce分布式并行计算框架总结5系统结构一个master,若干个chunkserver,若干个client存储大文件(GB-TB)一个文件由若干个定长块(chunk,64MB)块是普通linux

3、文件,有若干个复本(replica)6GFS中的记录追加写操作记录追加写原子性(atomic)多写者并发Lease机制保证一致性结果数据成功:至少成功的在一个偏移处写入了一次;块末尾可能产生填充失败:产生不一致和不完整的数据ClientMasterSecondaryReplicaAPrimaryReplicaSecondaryReplicaB7TFS中的记录追加写操作记录追加写原子性多写者并发无需lease机制变长块写缓存与新块申请结果成功:数据被完整的写入一次,且各个复本一致失败:数据没有被写入Client

4、ReplicaCReplicaAReplicaBMaster8实验设置一台master,九台chunkserverDell2850:2IntelXeon,2GB内存,7200rpmSCSI硬盘6块组成一个软件RAID-0客户端2GB内存,其余同上网络所有机器通过1Gbps全双工以太网卡与一个1Gbps交换机连接9记录追加写的效率一台客户机上启动不同个客户线程,网络上限125M峰值95MB/s,达理论上限的75%(GFS为50%)另一个实验中,多客户机多进程并发追加,总速率可达380MB/s10读操作的效率峰值

5、90MB/s,理论上限的72%(GFS为75%)11TFSShell1213大纲引言TFS分布式文件系统MapReduce分布式并行计算框架总结14例子:词频统计中国人民美国人民中国人民银行美国银行中国,1人民,1美国,1人民,1中国,1人民,1银行,1美国,1银行,1中国,1中国,1银行,1银行,1美国,1美国,1人民,1人民,1人民,1中国,2银行,2美国,2人民,3mapshufflereduce15MapReduce运行流程16系统结构17系统的优化忽略失败任务连接输出结果为一个文件Google实现中

6、R具有双层含义:Reduce任务数;输出文件个数TFS提供的concatFiles接口串行版MapReduce系统实时监控1819大纲引言TFS分布式文件系统MapReduce分布式并行计算框架总结20本文贡献提出了一个与GFS不同的设计方案,使得记录追加写的效率大大提升设计和实现了一个稳定的分布式文件系统TFS,并已用于实际的研究工作设计和实现了MapReduce分布式并行计算系统,并评测了它的性能在我们的MapReduce系统基础上实现了各种搜索引擎系统常见的应用总结了在分布式系统的设计和实现的实践中得到

7、的一些宝贵的经验21未来工作继续完善系统,提高系统性能,并根据用户反馈增加必要的新特性构建一个海量数据处理的基础设施是我们研究小组的一个长期的目标,下一步是bigtable系统为进一步简化程序员工作,在MapReduce的基础上设计和实现并行STL算法库总结和研究MapReduce,MapReduceMerge,Dryad等模型的表达能力,探索新的模型22谢谢!23致谢感谢我的导师李晓明教授三年来对我的教诲和研究工作论文工作的宝贵指导。李老师严谨的治学态度和高瞻远瞩的洞察力是我终身学习的楷模。感谢闫宏飞老师大

8、三时把我带入网络实验室这个大家庭,在实验室学习期间给予我工作学习的指导和对我各方面的能力的锻炼,以及对我本科毕业设计和毕业论文的关心和指导。感谢彭波老师研究生期间对我研究工作的指导和各方面的关心和帮助。彭老师谦虚温和的态度总是让人如沐春风,清晰严谨的思路始终是我学习的榜样。感谢北京大学网络实验室这个温暖的大家庭,从大三进入实验室实习起,我在这里度过了5年的岁月。实验室提供了如此好的环境和宽松的氛围,

显示全部收起
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭