欢迎来到天天文库
浏览记录
ID:10562448
大小:51.50 KB
页数:3页
时间:2018-07-07
《基于数据分组方法的数据仓库并行预计算和查询(一)论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于数据分组方法的数据仓库并行预计算和查询(一)论文论文关键词:数据仓库并行计算消息传递接口商立方体论文摘要:目前很多数据仓库的原始数据量已经超过了T字节级,在单处理机机器上运行数据量如此庞大的数据仓库是十分困难。因此,并行计算技术对于数据仓库技术的介入是无法避免的,并行计算技术为提高运算能力和存储能力这影响数据仓库性能的两大重要因素提供了技术基础。本文详细介绍了基于数据分组方法的数据仓库并行预计算和查询的方法,其主要思想是将数据仓库基表中的数据进行分割,分发到各台计算机上后,并行地对数据进行预计算,并根据预计算完成后.freelonInm02提出了数据仓库的概念。他对于数据仓库
2、是这样定义的:数据仓库就是一个用以更好地支持企业或组织的决策分析处理、面向主题的、集成的、不可更新的、随时间不断变化的数据集合。数据仓库有以下特点:●面向主题(Subject-oriented):数据仓库中的数据是面向主题进行组织的。●集成(Integrated):数据仓库中通常集成了多个异质数据源的数据。在集成过程中,需要对数据进行清洗、转换以保证数据的一致性。●稳定(Nonvolatile):数据仓库中的数据是反映一段相对长时间内历史数据的内容,是不同时间数据库快照的集合,以及基于这种快照进行统计、综合和重组的导出数据。所设计的操作主要是数据查询,一般不会进行修改操作。●随时
3、间变化(Time-variant):数据仓库随时间变化不断增加新的内容,删去旧的内容。数据仓库技术在过去的一段时间内发展迅速,已经成功地应用到电信、银行、保险等行业。随着企业信息化的不断深入,这种发展还会持续。2.1.1联机分析处理与数据立方体为了让决策支持人员更好地去分析处理数据仓库中的海量数据,E.Codd于1993年提出了联机分析处理(OLAP:On-LineAnalyticalProcessing)的概念CCS93a,CCS93b。OLAP工具通过对信息的多个角度(维)进行快速、一致、稳定的交互访问,决策支持人员可以深入地进行观察。OLAP工具是为了满足更高效地进行多维分
4、析的需求而产生的,其主要功能是根据用户所选择的分析角度,事先计算好一些辅助结构,以便在查询对能够抽取到所需要的记录。OLAP系统中的数据通常会以一个多维的结构模型表现出来。表2.1是一个简单的销售数据仓库的基表(basetable),基表中的一条记录称为元组(tuple),该基表中一条元组有三个属性:时间、产品名称和地点,在这里被称为维度(dimension),这些维用来表示和区分开不同的数据。销量属性是一个数值类型的度量值(measure),是人们想要去分析的数据。维度通常也会分层次(hierarchy),例如时间维度可能会分为年、月、日、季度等层次。地点产品名称时间销量广州(
5、GZ)篮球(B)2007.5(M1)20广州(GZ)足球(F)2007.6(M2)15深圳(SZ)篮球(B)2007.5(M1)25表2.1销售数据仓库的基表数据立方体(DataCube)是由Gray等人提出GCB+97。它是对所有维度的所有可能结合,根据不同聚集粒度进行group-by操作而产生的一个概括化数据集合。每一个group-by操作都与一个单元(cells)的集合相关联,数据立方体关于表2.1的所有单元都在表2.2中列出,在表中,“*”表示在这一维度中,它可以匹配到这个维度值域中的任何一个值。上卷(roll-up)和下钻(drill-dometricMulti-Pro
6、cessing,.freelory,DSM):系统以节点为单位,每个节点包含一个或多个CPU,每个CPU有局部的cache。存储在物理上分布,但在逻辑上是统一的内存地址空间。各个节点既可以直接访问本地的局部存储单元,也进行访问其他节点的局部存储单元,但远端访问必须通过高性能互联网络,性能远不如本地访问。DSM系统的可扩展性强,可扩展至数百个节点。支持消息传递、共享存储并行程序设计。(3)集群系统(Cluster):系统由节点构成,每个节点包含2-4个商用处理器,节点内部共享存储。各节点通过交换机连接。当计算机是运行Linux操作系统的PC机时,这类集群则成为Beosburg召开的
7、“分布式存储环境中消息传递标准”的讨论会上MPI03a。MPI1.0标准由Dongarra,Hempel,Hey以及PI的发展,MPI论坛(MPIForum)因此而诞生,负责MPI的完善和维护工作。MPI-2MPI03b是在对原来MPI作了重大扩充基础上,于1997年7月推出的MPI扩展部分,原来的MPI各种版本改称为MPI-1。MPI-2的扩充很多,但最主要的是以下三部分:并行I/O,远程存储访问和动态进程管理。MPI的标准化是多个组织和个人的努力成果,他们主要是来自美国和欧洲
此文档下载收益归作者所有