欢迎来到天天文库
浏览记录
ID:21809451
大小:48.00 KB
页数:7页
时间:2018-10-24
《谷歌大规模排序实验的历史[翻译]》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、WORD文档可编辑原文链接:https://cloud.google.com/blog/big-data/2016/02/history-of-massive-scale-sorting-experiments-at-google作者:MarianDvorsky,软件工程师,谷歌云平台Historyofmassive-scalesortingexperimentsatGoogle谷歌大规模排序实验的历史Thursday,February18,2016星期四,2016年2月18日We’vetestedMapReducebysortinglargeamountsofrandomdataeversi
2、ncewecreatedthetool.Welikesorting,becauseit’seasytogenerateanarbitraryamountofdata,andit’seasytovalidatethattheoutputiscorrect.我们发明了MapReduce这个工具之后,对它进行了大规模随机数据的排序测试。我们喜欢排序,因为很容易产生任意规模的数据,也很容易验证排序的输出是否正确。Eventhe originalMapReducepaper reportsaTeraSortresult.Engineersrun1TBor10TBsortsasregressiontest
3、sonaregularbasis,becauseobscurebugstendtobemorevisibleonalargescale.However,therealfunbeginswhenweincreasethescaleevenfurther.InthispostI’lltalkaboutourexperiencewithsomepetabyte-scalesortingexperimentswedidafewyearsago,includingwhatwebelievetobethelargestMapReducejobever:a50PBsort.我们最初的MapReduce论文就
4、报道了一个TeraSort排序的结果。工程师在一定的规则基础上对1TB或10TB的数据进行排序测试,因为细小的错误更容易在大规模数据运行的时候被发现。然而,真正有趣的事情在我们进一步扩大数据规模后才开始。在这篇文章中,我将讲一讲我们在几年之前所做的一些PB级别的排序实验,包括我们认为是目前最大的MapReduce工作:50PB排序。Thesedays,GraySortisthelargescalesortingbenchmarkofchoice.InGraySort,youmustsortatleast100TBofdata(as100-byterecordswiththefirst10byt
5、esbeingthekey),lexicographically,asfastaspossible.Thesite sortbenchmark.org tracksofficialwinnersforthisbenchmark.Weneverenteredtheofficialcompetition.技术资料专业分享WORD文档可编辑那时候,GraySort是大型排序基准的选择。在GraySort基准下,你必须按照尽快对至少100TB的数据(每100B数据用最前面的10B数据作为键)进行字典序排序。Storbenchmark.org这个网站追踪报道了这个基准的官方优胜者。而我们从未正式参加过比
6、赛。MapReducehappenstobeagoodfitforsolvingthisproblem,becausethewayitimplementsreduceisbysortingthekeys.Withtheappropriate(lexicographic)shardingfunction,theoutputofMapReduceisasequenceoffilescomprisingthefinalsorteddataset.MapReduce是解决这个问题的一个不错选择,因为它实现减少(优化)的方法是对通过对键进行排序。结合适当的(字典)分区功能,MapReduce的输出是一组
7、包含了最终排序数据的文件序列。Onceinawhile,whenanewclusterinadatacentercameup(typicallyforusebythesearchindexingteam),weintheMapReduceteamgottheopportunitytoplayforafewweeksbeforetherealworkloadmovedin.Thisiswhenweh
此文档下载收益归作者所有