hadoop分布式资料系统:架构和设计方案

hadoop分布式资料系统:架构和设计方案

ID:34610876

大小:114.00 KB

页数:13页

时间:2019-03-08

hadoop分布式资料系统:架构和设计方案_第1页
hadoop分布式资料系统:架构和设计方案_第2页
hadoop分布式资料系统:架构和设计方案_第3页
hadoop分布式资料系统:架构和设计方案_第4页
hadoop分布式资料系统:架构和设计方案_第5页
资源描述:

《hadoop分布式资料系统:架构和设计方案》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、目录一、引言1二、前提和设计目标1矚慫润厲钐瘗睞枥庑赖。2.1硬件错误1聞創沟燴鐺險爱氇谴净。2.2流式数据访问1残骛楼諍锩瀨濟溆塹籟。2.3大规模数据集1酽锕极額閉镇桧猪訣锥。2.4简单的一致性模型2彈贸摄尔霁毙攬砖卤庑。2.5“移动计算比移动数据更划算”2謀荞抟箧飆鐸怼类蒋薔。2.5异构软硬件平台间的可移植性2厦礴恳蹒骈時盡继價骚。三、Namenode和Datanode2茕桢广鳓鯡选块网羈泪。四、文件系统的名字空间(namespace)3鹅娅尽損鹌惨歷茏鴛賴。五、数据复制4籟丛妈羥为贍偾蛏练淨。5.1副本存放:最最开始的一步4

2、預頌圣鉉儐歲龈讶骅籴。5.2副本选择5渗釤呛俨匀谔鱉调硯錦。5.3安全模式5铙誅卧泻噦圣骋贶頂廡。六、文件系统元数据的持久化6擁締凤袜备訊顎轮烂蔷。七、通讯协议7贓熱俣阃歲匱阊邺镓騷。八、健壮性7坛摶乡囂忏蒌鍥铃氈淚。8.1磁盘数据错误、心跳检测和重新复制7蜡變黲癟報伥铉锚鈰赘。8.2集群均衡7買鲷鴯譖昙膚遙闫撷凄。8.3数据完整性8綾镝鯛駕櫬鹕踪韦辚糴。8.4元数据磁盘错误8驅踬髏彦浃绥譎饴憂锦。8.5快照8猫虿驢绘燈鮒诛髅貺庑。九、数据组织9锹籁饗迳琐筆襖鸥娅薔。9.1数据块9構氽頑黉碩饨荠龈话骛。9.2Staging9輒峄陽

3、檉簖疖網儂號泶。9.3流水线复制9尧侧閆繭絳闕绚勵蜆贅。十、可访问性10识饒鎂錕缢灩筧嚌俨淒。10.1DFSShell10凍鈹鋨劳臘锴痫婦胫籴。10.2DFSAdmin10恥諤銪灭萦欢煬鞏鹜錦。10.3浏览器接口11鯊腎鑰诎褳鉀沩懼統庫。十一、存储空间回收11硕癘鄴颃诌攆檸攜驤蔹。11.1文件的删除和恢复11阌擻輳嬪諫迁择楨秘騖。11.2减少副本系数11氬嚕躑竄贸恳彈瀘颔澩。十二、参考资料12釷鹆資贏車贖孙滅獅赘。12一、引言Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodityhardware)上的

4、分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为ApacheNutch搜索引擎项目的基础架构而开发的。HDFS是ApacheHadoopCore项目的一部分。这个项目的地址是http://hadoop.apache.org/core/。怂阐譜鯪迳導嘯畫長凉。二、前提

5、和设计目标2.1硬件错误硬件错误是常态而不是异常。HDFS可能由成百上千的服务器所构成,每个服务器上存储着文件系统的部分数据。我们面对的现实是构成系统的组件数目是巨大的,而且任一组件都有可能失效,这意味着总是有一部分HDFS的组件是不工作的。因此错误检测和快速、自动的恢复是HDFS最核心的架构目标。谚辞調担鈧谄动禪泻類。2.2流式数据访问运行在HDFS上的应用和普通的应用不同,需要流式访问它们的数据集。HDFS的设计中更多的考虑到了数据批处理,而不是用户交互处理。比之数据访问的低延迟问题,更关键的在于数据访问的高吞吐量。POSIX

6、标准设置的很多硬性约束对HDFS应用系统不是必需的。为了提高数据的吞吐量,在一些关键方面对POSIX的语义做了一些修改。嘰觐詿缧铴嗫偽純铪锩。2.3大规模数据集12运行在HDFS上的应用具有很大的数据集。HDFS上的一个典型文件大小一般都在G字节至T字节。因此,HDFS被调节以支持大文件存储。它应该能提供整体上高的数据传输带宽,能在一个集群里扩展到数百个节点。一个单一的HDFS实例应该能支撑数以千万计的文件。熒绐譏钲鏌觶鷹緇機库。2.4简单的一致性模型HDFS应用需要一个“一次写入多次读取”的文件访问模型。一个文件经过创建、写入和

7、关闭之后就不需要改变。这一假设简化了数据一致性问题,并且使高吞吐量的数据访问成为可能。Map/Reduce应用或者网络爬虫应用都非常适合这个模型。目前还有计划在将来扩充这个模型,使之支持文件的附加写操作。鶼渍螻偉阅劍鲰腎邏蘞。2.5“移动计算比移动数据更划算”一个应用请求的计算,离它操作的数据越近就越高效,在数据达到海量级别的时候更是如此。因为这样就能降低网络阻塞的影响,提高系统数据的吞吐量。将计算移动到数据附近,比之将数据移动到应用所在显然更好。HDFS为应用提供了将它们自己移动到数据附近的接口。纣忧蔣氳頑莶驅藥悯骛。2.5异构

8、软硬件平台间的可移植性HDFS在设计的时候就考虑到平台的可移植性。这种特性方便了HDFS作为大规模数据应用平台的推广。三、Namenode和DatanodeHDFS采用master/slave架构。一个HDFS集群是由一个Namenode和一定数目

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。