欢迎来到天天文库
浏览记录
ID:20791413
大小:1.49 MB
页数:17页
时间:2018-10-15
《greenplum数据库》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、GreenPlum数据库介绍杜波——2015.03.30GREENPLUM简介大规模存储GREENPLUM数据分布策略并行加载数据MapReduce&SQL一体环境GREENPLUM中的高可用方案分析型应用体系架构GREENPLUM方案的优势GREENPLUM的应用场景目录GREENPLUM简介GREENPLUM简单的说它就是一个与ORACLE,DB2一样面向对象的关系型数据库。我们通过标准的SQL可以对GP中的数据进行访问存取。本质上讲GREENPLUM是一个关系型数据库集群。它实际上是由数个独立的数据库服务组合成的逻辑数据库。与RAC(realapplicationcluster
2、s实时应用集群)不同,这种数据库集群采取的是MPP(massivelyparallelprocessing大规模并行处理系统)模式。Greenplum是一种基于postgresql(开源数据库)的分布式数据库。其采用sharednothing架构(MPP),主机,操作系统,内存,存储都是自我控制的,不存在共享。GREENPLUM简介NetworkInterconnect............Master节点生成查询计划并派发汇总执行结果Segment节点执行查询计划及数据存储管理SQLMapReduce外部数据源并行装载或导出GreenPlum主要由masterhost,segme
3、nthost,interconnect三大部分组成。GREENPLUM简介masterhostmaster节点interconnectinterconnectsegmenthostsegment节点整个系统的控制中心和对外的服务接入点Master节点与Segment节点、Segment节点与Segment节点之间的数据传输组件Greenplum执行并行任务的并行运算节点Master节点:是整个系统的控制中心和对外的服务接入点,它负责接收用户SQL请求,将SQL生成查询计划并进行并行处理优化,然后将查询计划分配(dispatch)到所有的Segment节点进行并行处理,协调组织各个Se
4、gment节点按照查询计划一步一步地进行并行处理,最后获取到Segment的计算结果,再返回给客户端;从用户的角度看Greenplum集群,看到的只是Master节点,无需关心集群内部的机制,所有的并行处理都是在Master控制下自动完成的。Master节点一般只有一个或两个(互为备份)。Interconnect:是Master节点与Segment节点、Segment节点与Segment节点之间的数据传输组件,它基于千兆交换机或万兆交换机实现数据在节点间的高速传输。Segment节点:是Greenplum执行并行任务的并行运算节点,它接收Master的指令进行MPP并行计算,因此所有
5、Segment节点的计算性能总和就是整个集群的性能,通过增加Segment节点,可以线性化得增加集群的处理性能和存储容量,Segment节点可以是1~10000个节点。GREENPLUM简介Greenplum数据库通过将数据分布到多个节点上来实现大规模数据的存储。数据库的瓶颈经常发生在I/O方面,数据库的诸多性能问题最终总能归罪到I/O身上,久而久之,IO瓶颈成为了数据库性能的永恒的话题。Greenplum采用分而治之的办法,将数据规律的分布到节点上,充分利用segment主机的IO能力,以此让系统达到最大的IO能力(主要是带宽)。在greenplum中每个表都是分布在所有节点上的。
6、Masterhost首先通过对表的某个或多个列进行hash运算,然后根据hash结果将表的数据分布到segmenthost中。整个过程中masterhost不存放任何用户数据,只是对客户端进行访问控制和存储表分布逻辑的元数据。大规模存储GreenPlum数据分布策略随机分布:数据随机分布在数据库,每次查询都会查询所有的segmentHash分布:哈希值相同的记录在同一个Segment节点并行数据加载并行加载技术充分利用分布式计算和分布式存储的优势,保证发挥出每一块Disk的I/O资源并行加载比串行加载,速度提高40-50倍以上,减少ETL窗口时间增加Segment和ETLServer
7、,并行加载速度呈线性增长MapReduce&SQL一体环境GreenPlum将SQL和MAPREDUCE的功能整合到统一的数据处理框架中Greenplum中的高可用方案当配置了segmentmirror,当segmentprimary不能写的时候,greenplum会自动切换到mirror。当master不能连接到一个segmentinstance时,会把这个instance标记为invalid。当主用Master出故障时,热备份Master节点承担它工作
此文档下载收益归作者所有