大数据平台架构设计说明书

大数据平台架构设计说明书

ID:10194120

大小:648.50 KB

页数:31页

时间:2018-06-12

大数据平台架构设计说明书_第1页
大数据平台架构设计说明书_第2页
大数据平台架构设计说明书_第3页
大数据平台架构设计说明书_第4页
大数据平台架构设计说明书_第5页
资源描述:

《大数据平台架构设计说明书》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、大数据平台总体架构规格说明书V1.0版第31页共31页目录l目录2I.简介41.目的42.词汇表43.引用4II.整体介绍51.系统环境52.软件介绍53.用途64.简介65.核心技术7l大规模并行处理MPP7l行列混合存储8l数据库内压缩8l内存计算96.MasterNode97.DataNode9III.MASTERNODE101.简介102.Control模块103.SQL模块104.Active-Passivesolution16IV.DATANODE191.简介192.重要模块19第31页共31页3.数据存储204.数据导入21V.分布式机制

2、231.概括232.数据备份和同步243.时间同步机制274.分布式lease机制查询过程备忘27VI.内存管理机制29VII.V3.0版的初步设计思路30第31页共31页简介1.目的本文详细描述了DreamData数据库系统。介绍了系统的目标、功能、系统接口、系统行为、系统约束以及系统如何响应。本文面向系统参与者以及系统开发人员。2.词汇表术语定义作者提交被审查文档的人。为了防止多个作者的情况出现,这个术语指全程参与文档制作的主要作者。3.引用II.第31页共31页整体介绍1.系统环境图1–系统环境2.软件介绍DreamData是在从分布式数据库的基

3、础上发展而来,同时加入一些NoSQL的基因的新一代大数据实时分析分布式数据库,并且支持内存计算。DreamData最大的特色就是大而快,它能极快地导入和处理海量的数据,并在这个基础上能极快地进行用户所需数据统计和分析。相对传统数据库Oracle而言,DreamData的单机性能要高出50倍以上,并且随着节点数量的增加,整体性能会同步提升。第31页共31页1.用途l实时决策能力;l提高业务效率;l快速智能发现新观点和商业机会;l提供业务产出;l提升IT效率;软件架构2.简介图2–系统架构图第31页共31页1.核心技术DreamData采用了大量最新的技术

4、成果,最核心的技术包括:大规模并行处理MPP、行列混合存储、数据库内压缩和内存计算。这些技术之间并不是孤立存在,而是相互关联,形成一个高效的系统。l大规模并行处理MPPDreamData被设计为能在可用内核的数量,和跨越主机分配使用的并行执行上很好地进行扩展。如图3所示。图3.并行处理原理示意一张大表拆分成多个Tablet,被复制分布存储在不同的节点上以便并行处理;通过内存本地化处理把大数据量和计算量分散到不同处理器;同时任何节点宕机将不影响数据完整和业务连续性,提供了系统的高可用性。MPP系统不共享资源,处理单元可获得全部计算资源,处理效率高;处理单

5、元之间互不影响,当通信占比较小时MPP优于传统的SMP数据库架构,更适合数据分析与决策的场景。第31页共31页l行列混合存储DreamData主要面向大数据的实时处理,为了提高数据处理效率,尤其是常用的聚合、扫描和快速搜索功能,系统采用行列混合存储的方式,按行分区保留数据的关联性,按列组织提高数据压缩效率和快速聚合能力。从概念上来说,一张数据库表是一个二维的数据结构,以行和列形式组织单元。而计算机内存则是以线性顺序组织。对于存储至线性存储器中的表,如图3中所示,列式数据组织方式意味着更高的压缩效率和快速聚合能力。图4.列式数据组织的优势l数据库内压缩采

6、用经典的高效无损压缩算法技术,进一步提高性能,并极大地节省了数据存储空间。用户可获得10倍以上的空间节省,并且同时获得相应有效I/O性能提升。系统无需解压即可访问数据,轻量级压缩算法减少压缩/解压时间。第31页共31页l内存计算硬件上得益于近年来性能的提升,CPU普遍采用多核架构(每块CPU8Core),X86服务器硬件成本较低,可采用多服务器或多刀片大规模并行扩展。同时加上DreamData软件技术上的创新,包括行列混合存储技术、高效压缩、数据分片、快速索引、增量插入等方法手段,允许系统实现内存计算:u将数据保存在内存中相比从磁盘上访问能够极大地提高

7、应用的性能;u采用列式存储可以将更多的数据装进内存;u数据装进内存里的同时也会同步写入硬盘,即使宕机也不会丢失数据。1.MasterNode现在主要包括Control模块和SQL模块这两个部分,在这个基础上加入专门用于解析数据挖掘,并支持R语言的DataMining模块,为了可用性,安全性,以及性能,一个集群中可以有多个MasterNode,在SQL和DataMining这两个功能层面上,每个MasterNode之间会采用负载均衡的方式来进行调度,但在Control功能方面将会只有一个MasterNode处于Active状态,其他的MasterNode

8、处于Passive模式。2.DataNodeDataNode是实际对数据进行存储,并且能够对数

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。