欢迎来到天天文库
浏览记录
ID:34141371
大小:374.06 KB
页数:4页
时间:2019-03-03
《20140322MapReduce Assignments.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、MapReduceAssignments注意:以下英文部分为英文课程的MapReduce作业及要求,共有6个problem,针对每个problem实现python代码。本课程的作业要求与该英文课程略有不同。不同点:1.英文课程实现的python代码通过pythonxxxxx.pyinput-data命令来执行,是串行运算;2.本课程实现的python或java代码需通过hadoop及其streaming来执行,是并行运算;3.MapReduce本身是一种计算模型,是一种解决问题的思想方法,当用pythonxxxxx.p
2、yinput-data来实现的时候是串行过程,当用hadoop来实现的时候是并行过程,只是集群化并行计算比串行计算能更有效地处理大数据;本课程作业要求:1.同学们需完成全部6个problem的MapReduce程序,需能够在hadoop上运行,可以使用python或java语言编写;2.为了帮助同学们编写Hadoop版MapReduce代码,我们提供了符合英文课程作业要求的每个problem的python代码,同学们可以通过pythonxxxxx.pyinput-data命令来观察执行结果,同时可以通过参考这些代码来编写Hadoop版MapReduce程序;3.我们为同学
3、们提供了一个wordcount的例子,分别使用python和java实现,同学们可以通过参考这个例子来实现其他problem的Hadoop版MapReduce程序;Yourpythonsubmissionscriptsarerequiredtohaveamapperfunctionthatacceptsatleast1argumentandareducerfunctionvthatacceptsatleast2arguments.YoursubmissionisalsorequiredtohaveaglobalvariablenamedmrwhichpointstoaMa
4、pReduceobject.Ifyousolvetheproblemsbysimplyreplacingthemapperandreducerfunctionsinwordcount.py,thenthisisguaranteed.Problem1CreateanInvertedindex.Givenasetofdocuments,aninvertedindexisadictionarywhereeachwordisassociatedwithalistofthedocumentidentifiersinwhichthatwordappears.MapperInputTh
5、einputisa2elementlist:[document_id,text]document_id:documentidentifierformattedasastringtext:textofthedocumentformattedasastringThedocumenttextmayhavewordsinvariouscasesorelementsofpunctuation.Donotmodifythestring,andtreateachtokenasifitwasavalidword.(Thatis,justusevalue.split())ReducerOu
6、tputTheoutputshouldbea(word,documentIDlist)tuplewherewordisaStringanddocumentIDlistisalistofStrings.Youcantestyoursolutiontothisproblemusingbooks.json:pythoninverted_index.pybooks.jsonYoucanverifyyoursolutionagainstinverted_index.json.Problem2ImplementarelationaljoinasaMapReducequeryConsi
7、derthequery:SELECT*FROMOrders,LineItemWHEREOrder.order_id=LineItem.order_idYourMapReducequeryshouldproducethesameinformationasthisSQLquery.Youcanconsiderthetwoinputtables,OrderandLineItem,asonebigconcatenatedbagofrecordswhichgetsfedintothemapfunctionrecordbyrecord.M
此文档下载收益归作者所有