浅谈分布式存储和计算

ID：42871942

大小：26.50 KB

页数：6页

时间：2019-09-22

资源描述：

《浅谈分布式存储和计算》由会员上传分享，免费在线阅读，更多相关内容在工程资料-天天文库。

1、浅谈分布式计算一、引言在如今这个信息爆炸的时代，人们对大数据技术的需求越来越大，然而大数据是如何运作的呢，大数据的运作分为如下几步，首先是数据的采集，然后存储，之后计算，然后得到结论，但是这样就会出现一个问题，大数据需要的数据实在是太多了，并不是常规的Mb和Gb,而是更大的Pb、Eb和Zb,然后导致的就是数据的存储对于硬件的要求相当之大，数据移动一次的代价也相当大，这是无法接受的，所以为了解决这一难题，人们就研究出了分布式技术。二、分布式技术首先我们需要解决数据的存储，于是分布式存储技术诞生了，分布式存储系统，是将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服

2、务器存放所有数据，存储服务器成为系统性能的瓶颈，也是可靠性和安全性的焦点，不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构，利用多台存储服务器分担存储负荷，利用位置服务器定位存储信息，它不但提高了系统的可靠性、可用性和存取效率，还易于扩展。这样大大减少了对硬件的需求，同时也解决了数据的移动代价问题，可以说如果没有分布式技术，那么大数据技术的发展绝对不会像现在这样迅猛发展。而分布式计算技术是什么呢,所谓分布式计算是一门计算机科学，它研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分，然后把这些部分分配给许多计算机进行处理，最后把这些计算结果综合起

3、来得到最终的结果。分布式网络存储技术是将数据分散的存储于多台独立的机器设备上。分布式网络存储系统采用可扩展的系统结构，利用多台存储服务器分担存储负荷，利用位置服务器定位存储信息，不但解决了传统集中式存储系统中单存储服务器的瓶颈问题，还提高了系统的可靠性、可用性和扩展性。三、分布式计算的普及随着计算机的普及，个人电脑开始进入千家万户O与之伴随产生的是电脑的利用问题。越来越多的电脑处于闲置状态，即使在开机状态下CPU的潜力也远远不能被完全利用。我们可以想象，一台家用的计算机将大多数的时间花费在“等待”上面。即便是使用者实际使用他们的计算机时,处理器依然是寂静的消费,依然是不计其数的等

4、待，比如说等待输入，但实际上并没有做什么。互联网的出现，使得连接调用所有这些拥有限制计算资源的计算机系统成为了现实。那么，一些本身非常复杂的但是却很适合于划分为大量的更小的计算片断的问题被提出来，然后由某个研究机构通过大量艰辛的工作开发岀计算用服务端和客户端。服务端负责将计算问题分成许多小的计算部分，然后把这些部分分配给许多联网参与计算的计算机进行并行处理，最后将这些计算结果综合起来得到最终的结果。当然，这看起来也似乎很原始、很困难，但是随着参与者和参与计算的计算机的数量的不断增加，计算计划变得非常迅速，而且被实践证明是的确可行的。目前一些较大的分布式计算项目的处理能力已经可以达

5、到甚而超过目前世界上速度最快的巨型计算机。用户也可以选择参加某些项目以捐赠的CPU内核处理时间,您将发现您所提供的CPU内核处理时间将出现在项目的贡献统计中。您可以和其他的参与者竞争贡献时间的排名，您也可以加入一个已经存在的计算团体或者自己组建一个计算小组。这种方法很利于调动参与者的热情。五、MapReduce谈到分布式计算就一定要说一下MapReduce了，这是分布式计算比较常用的一个编程模型，MapReduce最早是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法。Google公司设计MapReduce的初衷主要是为了解决其搜索引擎中大规模网页数据的并行

6、化处理。Google公司发明了MapReduce之后首先用其重新改写了其搜索引擎中的Web文档索引处理系统。但由于MapReduce可以普遍应用于很多大规模数据的计算问题，因此自发明MapReduce以后，Google公司内部进一步将其广泛应用于很多大规模数据处理问题。到目前为止，Google公司内有上万个各种不同的算法问题和程序都使用MapReduce进行处理oMapReduce提供了以下的主要功能：1、数据划分和计算任务调度：系统自动将一个作业(Job)待处理的大数据划分为很多个数据块，每个数据块对应于一个计算任务(Task),并自动调度计算节点来处理相应的数据块。作业和任务

7、调度功能主要负责分配和调度计算节点(Map节点或Reduce节点)，同时负责监控这些节点的执行状态，并负责Map节点执行的同步控制。2、数据/代码互定位：为了减少数据通信，一个基本原则是本地化数据处理，即一个计算节点尽可能处理其本地磁盘上所分布存储的数据，这实现了代码向数据的迁移；当无法进行这种本地化数据处理时，再寻找其他可用节点并将数据从网络上传送给该节点（数据向代码迁移），但将尽可能从数据所在的本地机架上寻找可用节点以减少通信延迟。3、系统优化：为了减少数据通信开销，中间结果

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 6



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

浅谈分布式存储和计算

浅谈分布式存储和计算

相关文章

相关标签