欢迎来到天天文库
浏览记录
ID:39486794
大小:3.27 MB
页数:101页
时间:2019-07-04
《大规模数据处理编程模型》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、CloudComputingAutumn,2011Chapter6ProgrammingModelforMassiveDataProcessingXuJungang112021/7/14CloudComputing,GUCAS2提纲1.大规模数据处理2.并行编程3.MapReduce基本原理4.MapReduce的实现数据的爆炸性增长Source:IDC,“TheExpandingDigitalUniverse,”SponsoredbyEMC,updatedonMarch‘0820052006200720
2、08200920105年内10倍增长每年复合增长≈60%全球:5年内10倍增长中国:5年内30倍增长3互联网应用飞速发展搜索引擎Google百度必应…SNS网站Facebook人人网Linkedin开心网…...电子商务淘宝京东Amazon…微博Twitter新浪微博腾讯微薄…已经产生和正在产生大规模的海量的数据4云计算应用的迅速开展Google(GAE)Microsoft(WindowsAzure)Amazon(EC2,S3)IBM(BlueCloud)Salesforce(CRM)中国移动(BigCl
3、oud)……预期产生规模更大的海量数据5物联网未来应用无处不在流通环保农业工业个人生活……预期产生级数级增长的海量数据6大规模数据的特点V3Volume(量大)Varity(种类多)Velocity(变化快,即数据新增速度快)7大规模数据存储和处理要求和方案存储和管理存储PB级的处理存储多种多样的数据支持分布式处理处理PB级的多种数据低延迟读写速度成本较低的软硬件成本较低的人力成本分布式文件系统NoSQL数据库NoSQL数据库并行编程模型云计算开源软件82021/7/14CloudComputing,GU
4、CAS9提纲1.大规模数据处理2.并行编程3.MapReduce基本原理4.MapReduce的实现9ParallelcomputingParallelcomputingisaformofcomputationinwhichmanycalculationsarecarriedoutsimultaneously,operatingontheprinciplethatlargeproblemscanoftenbedividedintosmallerones,whicharethensolvedconcurre
5、ntly("inparallel").Thereareseveraldifferentformsofparallelcomputing:bit-level,instructionlevel,data,andtaskparallelism.10ParallelprogrammingmodelAparallelprogrammingmodelisaconceptthatenablestheexpressionofparallelprogramswhichcanbecompiledandexecuted.The
6、valueofaprogrammingmodelisusuallyjudgedonitsgenerality:howwellarangeofdifferentproblemscanbeexpressedandhowwelltheyexecuteonarangeofdifferentarchitectures.Theimplementationofaprogrammingmodelcantakeseveralformssuchaslibrariesinvokedfromtraditionalsequenti
7、allanguages,languageextensions,orcompletenewexecutionmodels.11并行编程的原因加快速度即在更短的时间内解决相同的问题或在相同的时间内解决更多更复杂的问题特别是对一些新出现的巨大的挑战问题,不使用并行计算是根本无法解决的1212并行编程的原因节省投入并行计算可以以较低的投入完成串行计算才能够完成的任务物理极限的约束光速是不可逾越的速度极限,设备和材料也不可能做得无限小,只有通过并行才能够不断提高速度1313并行编程的概念并行编程是指同时使用多种计算
8、资源解决计算问题的过程,是提高计算机系统计算速度和处理能力的一种有效手段。它的基本思想是用多个处理器来协同求解同一问题,即将被求解的问题分解成若干个部分,各部分均由一个独立的处理机来进行计算。并行编程系统既可以是专门设计的、含有多个处理器的超级计算机,也可以是以某种方式互连的若干台独立计算机构成的集群。1414并行编程的分类目前最主要的并行编程模型:共享内存线程数据并行消息传递混合模型15共享内存模型在共享内存编程模型中,任务
此文档下载收益归作者所有