欢迎来到天天文库
浏览记录
ID:49510806
大小:599.50 KB
页数:11页
时间:2020-02-26
《Cloud Computing Report2.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、TupleMapReduce:BeyondclassicMapReduce主要内容—ClassicMRCompoundRecords一行记录多个字段组成;传统的MapReduce不能轻松解决;现有的工具,如Thrift和ProtocolBuffers,只能解决部分问题ProblemsexsitinginMapReduceAppSorting(Secondarysorting)传统的MapReduce指定了记录分组方式,但没有指定组内记录排序方式;MapReduce没有涉及到sorting;主要内容—ClassicM
2、RJoins(Reduce-sidejoins)多个关联异构数据源的连接;MapReduce也没有涉及到join;基于MapReduce之上的高层操作实现join,需要大量的工作ProblemsexsitinginMapReduceApp主要内容—TupleMRFeaturesoradvantagesTuple-baseMapReduce,是ClassicMapReduce的扩展;不仅支持key/value记录,还支持Tuple;运用Compoundrecords,in-reduceordering,inter-s
3、ourcedatatypejoins,built-inreduce-sidejoining;ConfigureJobviaobjectinstanceinsteadofclasses;改善并行数据处理的任务TupleMapReduceMap函数和reduce函数的关系及数据类型---Ⅱ主要内容—TupleMRGroup-by语句声明Map过程的输出元组应该按照哪些字段(field)分组TupleMapReduceSort-by语句声明声明Map过程的输出元组应该按照哪些字段(field)排序;Group-byfie
4、lds是Sort-byfields的前缀(prefix)主要内容—TupleMRSchema含有SchemaName和alistoffields;TupleMapReduceTuple---madeofFields如:35,foo,string2Datatypes如:Type.INT、Type.LONG、Type.FLOAT等主要内容—TupleMR累积访问量---Cumulativevisits案例描述:计算每一个URL到某一日期的访问量设输入如:期望输出:TupleMapReduceAppCasesMap是id
5、entityfunction主要内容—TupleMR汇总---Rollup计算属于某一特定标签在每一位置和时间的消息总数例如:数据集中记录如下Tuple=(hashtag,location,date,count)期望输出:TupleMapReduceAppCases主要工作—Pangool1)TupleMapReduce的开源实现ontopofHadoop2)Ajavalibrary,只需要将其添加到项目中,不需要修改hadoop源码3)基于实例的配置方式4)有效易用的二次排序5)输入/输出元组格式化6)有效的re
6、duce端连接等Pangool&Itsfeatures总结对Hadoop框架下的MapReduce进一步做了研究,提出了更为底层的新的理论模型—TupleMapReduce,而且Pangool是它的开源实现总结及感受结束语谢谢大家!
此文档下载收益归作者所有