2014年-采用云计算技术构建大型数据仓库平台的探讨

2014年-采用云计算技术构建大型数据仓库平台的探讨

ID:18872771

大小:809.14 KB

页数:8页

时间:2018-09-26

2014年-采用云计算技术构建大型数据仓库平台的探讨_第1页
2014年-采用云计算技术构建大型数据仓库平台的探讨_第2页
2014年-采用云计算技术构建大型数据仓库平台的探讨_第3页
2014年-采用云计算技术构建大型数据仓库平台的探讨_第4页
2014年-采用云计算技术构建大型数据仓库平台的探讨_第5页
资源描述:

《2014年-采用云计算技术构建大型数据仓库平台的探讨》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、1 大型数据仓库建设面临的挑战       随着市场竞争加剧,电信运营商需要挖掘更多的经营商机,同时全面掌握企业运营成本,这使得对数据分析系统的重视程度大大提高。数据分析系统在电信运营商中已经有多年的建设历程,早期被称为经营分析系统,主要面向地(市)级、省级公司进行业务运营数据的加工、处理,向各级人员提供数据报表、查询等功能。随着近年移动用户的规模高速增长,话务量大幅增加,对经营分析系统提出了更为广泛和精细的服务要求。系统所分析的数据范围从初期只有业务支撑系统的数据源,向管理信息系统、用户上网行为日志等其他领域扩展,所承载的

2、业务功能亦更加复杂,实质上系统已逐步具备企业级数据中心的能力雏形。图1是典型数据分析系统的基本体系架构。       从图1中可以看出,数据仓库平台作为整个系统的基础性平台,主要实现对源数据的收集、加工、处理、重构、存储,并对外提供数据服务、数据管控等工作。在现阶段数据仓库的工作量占据了整个系统工作量的70%,现有集中化建设的数据分析系统,其数据范围已经涵盖了业务支撑域、管理信息域的核心数据以及部分运营支撑域数据。随着系统互联的源系统逐步增多、数据范围增大,现有数据仓库所承载的数据规模由最初的TB级向PB级发展,在可预见的未

3、来还将有更大的扩展。       而现有数据仓库还有许多是采用主流的联机事务处理(OLTP)平台所使用的数据库产品,该类产品使用的是面向交易的处理机制,其基本特征是顾客的原始数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,库表规模一般不会超过TB级,主要用于客户关系管理系统、计费系统的建设。        数据分析系统要对多张表中数亿条记录数据进行加工处理、数据分析和信息综合处理,是典型的联机分析处理(OLAP)平台,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果,其库表规模从TB级到PB级不

4、等。       电信运营商现有的数据分析系统每天从各层生产系统收集数亿条明细记录,加载到数据仓库中,采用传统数据库平台时仅入库1个环节就需要近5h,如果稽核出数据质量问题就需要重传,则时间更长,为后面的数据加工处理留出的时间更少,形成结果的时间较长,如第一天的日报时间几乎到第二天下午下班前才能够提供,这与管理层的需求相差甚远。单从技术层面究其深层的原因,是盘阵的I/O速率在海量数据处理过程中形成了瓶颈,I/O并发处理能力不足。目前数据仓库平台硬件架构如图2所示。       该硬件平台主机系统为高端UNIX主机,主机之间共

5、享外部存储设备,为典型的对称多处理(SMP)架构。当能力不足时,扩容主机、增加CPU数量可以提高计算能力,但提高磁盘I/O就需要采用多台高端磁盘阵列分担读写操作,而主机扩容、增加存储的费用高昂,并且会造成数据库表的重构迁移,将会长时间暂停业务,这些都是使用者难以承受的因素。2 云计算技术的引入       目前云计算技术方兴未艾,在电信运营商内部信息化建设方面已经形成对应的引入策略,其基本特征包括:形成私有云平台,满足资源的池化,能力可以快速伸缩。根据电信运营商对信息化系统的云化策略,适时引入x86分布式集群的大规模并行处理

6、(MPP)架构,可以解决数据分析系统基础设施目前面临的主要困惑。 2.1 SMP与MPP架构比较       SMP架构是指在一台主机上汇集了一组处理器(多CPU),各CPU之间共享内存、总线(见图3)。在这种架构中,1台主机同时由多个处理器运行操作系统的单一复本,并共享内存和其他资源。虽然同时使用多个CPU,但是从管理的角度来看,它们的表现就像1台单机一样。管理系统将任务队列对称地分布于多个CPU上,从而极大地提高了整个系统的数据处理能力。所有的处理器都可以平等地访问内存、I/O和外部中断等资源。在对称多处理系统中,系统资

7、源被系统中所有CPU共享,工作负载能够均匀地分配到所有可用处理器之上。       MPP系统由许多松耦合的处理单元组成,要注意的是这里指的是处理单元而不是处理器。每个处理单元内的CPU都有自己私有的资源,如总线、内存、硬盘等(见图4)。在每个单元内都有操作系统和管理数据库的实例复本。这种结构最大的特点在于不共享资源。x86的PC服务器集群就是MPP架构的典型实例。       SMP架构的优势和劣势都在于它的内存、总线等共享资源,当程序的处理能力在资源能力范围内时效率很高,当处理需求大于资源承受能力时,瓶颈就出现了,而SM

8、P的扩展是有限制的,并且扩展费用较高。       MPP系统不共享资源,相对资源总数一般比SMP系统要多,当需要处理的事务达到一定规模时,MPP的表现要比SMP好。所以对于OTLP应用,如用户访问一个中心数据库,采用SMP系统架构,它的效率要比采用MPP架构快得多,而MPP系统在OLAP

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。