欢迎来到天天文库
浏览记录
ID:57684699
大小:495.00 KB
页数:5页
时间:2020-08-31
《云计算的分布式计算框架.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、XXX系统概要设计说明书思特奇分布式计算技术介绍(V1.0)北京神州数码思特奇信息技术股份有限公司二〇一〇年一月北京思特奇信息技术股份有限公司第2页共22页思特奇分布式技术框架介绍文档信息文档名称电子文档MicrosoftWORD2003文件状态□草稿□正式发布□正在修改编写人日期2009年02月27日校对人日期年月日审核人日期年月日批准人日期年月日变更记录变更序号变更原因变更页码变更前版本号变更后版本号更改人批准人生效日期备注1文档建立0.11引言神州数码思特奇信息技术股份有限公司地址:北京市海淀区上地九街9号数码科技广场二层(100085)电话(Tel)
2、:(010)58856600传真(Fax):(010)62969630第5页共5页思特奇分布式技术框架介绍框架中最核心的设计就是:MapReduce和HDFS。MapReduce就是“任务的分解与结果的汇总”。HDFS是分布式文件系统,为分布式计算存储提供了底层支持。MapReduce先将一个任务分解成为多个任务,“Reduce”就是将分解后多任务处理的结果汇总起来,得出最后的分析结果。在分布式系统中,机器集群把硬件看作资源池,将并行的任务拆分,然后交由每一个空闲机器资源去处理,能够极大地提高计算效率,同时这种资源无关性,对于计算集群的扩展无疑提供了最好的设
3、计保证。分布式计算就好比蚂蚁吃大象,廉价的机器群可以匹敌任何高性能的计算机。任务分解处理以后,那就需要将处理以后的结果再汇总起来,这就是Reduce要做的工作。1HDFS分布式文件系统HDFS是分布式计算的存储基石,具有如下几个特点:a)对于整个集群单一的命名空间。b)数据一致性。适合一次写入多次读取的模型,客户端在文件没有被成功创建之前无法看到文件存在。c)文件会被分割成多个文件块,每个文件块被分配存储到数据节点上,而且根据配置会由复制文件块来保证数据的安全性。HDFS采用master/slave架构。一个HDFS集群由一个Namenode和一定数目的Da
4、tanode组成。Namenode是一个中心服务器,负责管理文件系统的namespace和客户端对文件的访问。Datanode在集群中一般是一个节点一个,负责管理节点上它们附带的存储。在内部,一个文件分成一个或多个block,这些block存储在Datanode集合里。Namenode执行文件系统的namespace操作,例如打开、关闭、重命名文件和目录,同时决定block到具体Datanode节点的映射。Datanode在Namenode的指挥下进行block的创建、删除和复制。Namenode和Datanode都是设计成可以跑在普通的廉价的运行linux
5、的机器上。神州数码思特奇信息技术股份有限公司地址:北京市海淀区上地九街9号数码科技广场二层(100085)电话(Tel):(010)58856600传真(Fax):(010)62969630第5页共5页思特奇分布式技术框架介绍HDFS的设计特点:a)数据安全:一个Block会有三份备份,一份放在NameNode指定的DataNode,另一份放在与指定DataNode非同一Rack上的DataNode,最后一份放在与指定DataNode同一Rack上的DataNode上。b)心跳检测DataNode的健康状况,如果发现问题就采取数据备份的方式来保证数据的安全性
6、。c)数据复制:平衡DataNode的存储利用率、数据交互压力等情况。d)数据交验:采用CRC32作数据交验。e)数据管道性的写入:当客户端要写入文件到DataNode上,首先客户端读取一个Block然后写到第一个DataNode上,然后由第一个DataNode传递到备份的DataNode上,一直到所有需要写入这个Block的NataNode都成功写入,客户端才会继续开始写下一个Block。f)安全模式:当分布式文件系统处于安全模式的情况下,文件系统中的内容不允许修改也不允许删除,直到安全模式结束。神州数码思特奇信息技术股份有限公司地址:北京市海淀区上地九街
7、9号数码科技广场二层(100085)电话(Tel):(010)58856600传真(Fax):(010)62969630第5页共5页思特奇分布式技术框架介绍1思特奇分布式计算框架结构Master主要负责NameNode的工作以及JobTracker的工作。JobTracker的主要职责就是启动、跟踪和调度各个Slave的任务执行。Slave通常具有DataNode的功能并负责TaskTracker的工作。TaskTracker根据应用要求来结合本地数据执行Map任务以及Reduce任务。思特奇分布式计算框架特点a)可扩展:不论是存储的可扩展还是计算的可扩展都
8、是设计根本。b)经济:框架可以运行在任何普通的PC上
此文档下载收益归作者所有