20140322MapReduce Assignments.pdf

20140322MapReduce Assignments.pdf

ID:34141371

大小:374.06 KB

页数:4页

时间:2019-03-03

20140322MapReduce Assignments.pdf_第1页
20140322MapReduce Assignments.pdf_第2页
20140322MapReduce Assignments.pdf_第3页
20140322MapReduce Assignments.pdf_第4页
资源描述:

《20140322MapReduce Assignments.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、MapReduceAssignments注意:以下英文部分为英文课程的MapReduce作业及要求,共有6个problem,针对每个problem实现python代码。本课程的作业要求与该英文课程略有不同。不同点:1.英文课程实现的python代码通过pythonxxxxx.pyinput-data命令来执行,是串行运算;2.本课程实现的python或java代码需通过hadoop及其streaming来执行,是并行运算;3.MapReduce本身是一种计算模型,是一种解决问题的思想方法,当用pythonxxxxx.p

2、yinput-data来实现的时候是串行过程,当用hadoop来实现的时候是并行过程,只是集群化并行计算比串行计算能更有效地处理大数据;本课程作业要求:1.同学们需完成全部6个problem的MapReduce程序,需能够在hadoop上运行,可以使用python或java语言编写;2.为了帮助同学们编写Hadoop版MapReduce代码,我们提供了符合英文课程作业要求的每个problem的python代码,同学们可以通过pythonxxxxx.pyinput-data命令来观察执行结果,同时可以通过参考这些代码来编写Hadoop版MapReduce程序;3.我们为同学

3、们提供了一个wordcount的例子,分别使用python和java实现,同学们可以通过参考这个例子来实现其他problem的Hadoop版MapReduce程序;Yourpythonsubmissionscriptsarerequiredtohaveamapperfunctionthatacceptsatleast1argumentandareducerfunctionvthatacceptsatleast2arguments.YoursubmissionisalsorequiredtohaveaglobalvariablenamedmrwhichpointstoaMa

4、pReduceobject.Ifyousolvetheproblemsbysimplyreplacingthemapperandreducerfunctionsinwordcount.py,thenthisisguaranteed.Problem1CreateanInvertedindex.Givenasetofdocuments,aninvertedindexisadictionarywhereeachwordisassociatedwithalistofthedocumentidentifiersinwhichthatwordappears.MapperInputTh

5、einputisa2elementlist:[document_id,text]document_id:documentidentifierformattedasastringtext:textofthedocumentformattedasastringThedocumenttextmayhavewordsinvariouscasesorelementsofpunctuation.Donotmodifythestring,andtreateachtokenasifitwasavalidword.(Thatis,justusevalue.split())ReducerOu

6、tputTheoutputshouldbea(word,documentIDlist)tuplewherewordisaStringanddocumentIDlistisalistofStrings.Youcantestyoursolutiontothisproblemusingbooks.json:pythoninverted_index.pybooks.jsonYoucanverifyyoursolutionagainstinverted_index.json.Problem2ImplementarelationaljoinasaMapReducequeryConsi

7、derthequery:SELECT*FROMOrders,LineItemWHEREOrder.order_id=LineItem.order_idYourMapReducequeryshouldproducethesameinformationasthisSQLquery.Youcanconsiderthetwoinputtables,OrderandLineItem,asonebigconcatenatedbagofrecordswhichgetsfedintothemapfunctionrecordbyrecord.M

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。