Greenplum数据库最佳实践-V1.2.pdf

Greenplum数据库最佳实践-V1.2.pdf

ID:23520888

大小:1.74 MB

页数:103页

时间:2018-11-08

Greenplum数据库最佳实践-V1.2.pdf_第1页
Greenplum数据库最佳实践-V1.2.pdf_第2页
Greenplum数据库最佳实践-V1.2.pdf_第3页
Greenplum数据库最佳实践-V1.2.pdf_第4页
Greenplum数据库最佳实践-V1.2.pdf_第5页
资源描述:

《Greenplum数据库最佳实践-V1.2.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第一章体系结构1.1发展历程Greenplum是2003年成立的,核心技术团队成员来自各个顶级数据库公司和大规模并行计算公司的资深软件架构师,Greenplum数据库软件是业内首创的无共享、大规模并行处理(massivelyparallelprocessing(MPP))的数据库软件产品,它包含大规模并行计算技术和数据库技术最新的研发成果:包括无共享/MPP,按列存储数据库,数据库内压缩,MapReduce,永不停机扩容,多级容错等等。该数据库软件被业界认可为扩展能力最大的分析型(OLAP)数据库软件。已有100多家世界

2、级重大客户采用该软件,这些客户中大多数Greenplum数据仓库所管理的数据量都超过100TB,其中,全球最大的有6500TB,中国最大的有400TB。每一天,全球有数亿级的用户在直接、间接用到Greenplum发明的数据库平台。Greenplum数据仓库软件是业界首创将大规模并行计算技术,应用到了数据库软件领域。该类技术同样应用在Google搜索引擎的中。主要事件参考如下:2003年:Greenplum由ScottYara和LukeLonergan成立。2005年:Greenplum数据库第一个版本发布。2006

3、年:与Sun公司合作,成为其合伙人。2008年:GreenplumMapReduce发布,同年12月份进入中国市场,一年多后,Greenplum正式宣布在中国独立运营。2010:Greenplum被EMC收购,并被整合到EMC的云计算战略中。2011-2012:Greenplum社区版发布,GreenplumChorus发布并开源。2013:VMware和EMC联合宣布将成立合资公司Pivotal,并将GreenplumDB整合过来。2014:Greenplum4.3发布。第1页共103页2015:10月27

4、日,Pivotal宣布开源GreenplumDB,并将代码托管到github,使用Apache2的版权协议。1.2体系结构面对海量数据的处理需求,发展起来的MPPShareNothing(海量并行处理+完全无共享)技术是唯一解决之道,只有无共享的MPP并行处理技术才能满足海量数据的性能需求;我们可以看到过去几十年数据库计算架构的发展历程。早期(70年代)是Shared-Everthing架构,数据库计算和数据访问都在一个单一的SMP节点上完成,当数据量到达TB级后,这种架构在数据计算和I/O方面都存在很大的瓶颈;随后在9

5、0年代,一些数据库厂商(以OracleRAC典型代表)在SMP节点的基础上进行改进,将数据库的计算单元分离出来做并行化处理,进而提高系统的计算能力,但数据访问上还是采用共享方式Share-Storage,这个方式虽有效的解决了计算方面的瓶颈,但我们都知道,数据库性能由两个主要因素决定,一个是CPU计算能力,另外一个就是数据从Disk上的I/O吞吐性能,而计算机技术发展中,CPU性能的技术发展比磁盘要快的多,因此I/O对于数据库性能来说是更为重要的制约因素,而Share-storge没有解决I/O性能瓶颈的问题,当数据量到

6、达5T~10T后,这种架构难以满足性能处理的需求;针对老的架构的不足,业界在90年代末期(以Greenplum典型代表)创新出了MPP+Sharenothing架构,采用完全无共享的并行处理架构,完全避免了集群中各节点在并行处理过程中的CPU/IO/内存/网络等的资源争夺,第2页共103页将I/O和CPU的能力发挥到极致,为海量数据的处理提供了最大化并行的计算处理架构,满足大规模数据的处理性能需求。Greenplum数据库内部架构参考如下:Master节点是整个集群的接入点,负责处理客户端请求,并将客户端提交的SQL生产

7、查询计划,优化后分配到Segment,协调各Segment节点进行并行计算,最后将Segment的计算结果收集后返回客户端,Mastere节点不存储用户数据,只存放数据字典,如DDL;Segment节点,是执行并行计算的节点,所有的用户数据都分布存储在所有的Segment节点中,接收到Master的指令后进行并行计算处理;1.3核心功能1.3.1无共享MPPGreenplum数据库软件将数据平均分布到系统的所有节点服务器上,所以节点存储每张表或表分区的部分行,所有数据加载和查询都是自动在各个节点服务器上并行运行,并且该架

8、构支持扩展到上万个节点。第3页共103页1.3.2多态存储Greenplum发明支持混合按列或按行存储数据,每张表或表分区可以由管理员根据应用需要,分别指定存储和压缩方式。基于这个功能,用户可以对任何表或表分区选择按行或按列存储数据和处理方式。这些是在建表或表分区的DDL语句中配置的,只需在建表或表分区时指定:这个功

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。