数据仓库实践培训电子教案.ppt

数据仓库实践培训电子教案.ppt

ID:61278293

大小:325.50 KB

页数:17页

时间:2021-01-23

数据仓库实践培训电子教案.ppt_第1页
数据仓库实践培训电子教案.ppt_第2页
数据仓库实践培训电子教案.ppt_第3页
数据仓库实践培训电子教案.ppt_第4页
数据仓库实践培训电子教案.ppt_第5页
资源描述:

《数据仓库实践培训电子教案.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据仓库实践培训什么是OLAP(联机分析处理)?联机分析处理(OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年提出的。当时,Codd认为联机事务处理(OLTP)已不能满足终端用户对数据库复杂查询分析的需要,SQL对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求,因此Codd提出了多维数据库和多维分析的概念即OLAP。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且

2、提供直观易懂的查询结果,OLAP的技术核心就是“维度”这个概念。基本多维分析操作有钻取(rollup和drilldown)、切片(slice)和切块(dice)、以及旋转(pivot)、drillacross、drillthrough等。钻取是改变维的层次,变换分析的粒度。它包括向上钻取(rollup)和向下钻取(drilldown)。切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。ROLAP表示基于关系数据库的OLAP

3、实现(RelationalOLAP)。以关系数据库为核心,以关系型结构进行多维数据的表示和存储MOLAP表示基于多维数据结构组织的OLAP实现(MultidimensionalOLAP)MOLAP使用多维数组存储数据。HOLAP表示基于混合数据组织的OLAP实现(HybridOLAP)。如低层是关系型的,高层是多维矩阵型的。这种方式具有更好的灵活性。定义OLAP操作OLAP存储数据仓库架构数据仓库(DataWarehouseDW)是为了便于多维分析和多角度展现而将数据按特定的模式进行存储所建立起来的

4、关系型数据库,它的数据基于OLTP源系统。数据仓库中的数据是细节的、集成的、面向主题的,以OLAP系统的分析需求为目的。星型模型与雪花模型数据仓库的架构模型包括了星型架构与雪花型架构两种模式。如图所示,星型架构的中间为事实表,四周为维度表,类似星星;而相比较而言,雪花型架构的中间为事实表,两边的维度表可以再有其关联子表,从而表达了清晰的维度层次关系。从OLAP系统的分析需求和ETL的处理效率两方面来考虑:星型结构聚合快,分析效率高;而雪花型结构明确,便于与OLTP系统交互。因此,在实际项目中,我们将

5、综合运用星型架构与雪花型架构来设计数据仓库。数据仓库建立“五步法”一、确定主题例如:我们希望分析某年某月某一地区的啤酒销售情况,这就是一个主题。主题要体现出某一方面的各分析角度(维度)和统计数值型数据(量度)之间的关系,确定主题时要综合考虑。我们可以形象的将一个主题想象为一颗星星:统计数值型数据(量度)存在于星星中间的事实表;分析角度(维度)是星星的各个角;我们将通过维度的组合,来考察量度。那么,“某年某月某一地区的啤酒销售情况”这样一个主题,就要求我们通过时间和地区两个维度的组合,来考察销售情况这

6、个量度。从而,不同的主题来源于数据仓库中的不同子集,我们可以称之为数据集市。数据集市体现了数据仓库某一方面的信息,多个数据集市构成了数据仓库。即确定数据分析或前端展现的主题度量维度维度维度维度维度分析主题:事实表数据仓库建立“五步法”二、确定度量它们一般为数值型数据。我们或者将该数据汇总,或者将该数据取次数、独立次数或取最大最小值等,这样的数据称为量度。量度是要统计的指标,必须事先选择恰当,基于不同的量度可以进行复杂关键性能指标(KPI)等的设计和计算。在确定了主题以后,我们将考虑要分析的技术指标,

7、诸如年销售额之类数据仓库建立“五步法”三、确定事实数据粒度例如:假设目前的数据最小记录到秒,即数据库中记录了每一秒的交易额。那么,如果我们可以确认,在将来的分析需求中,时间只需要精确到天就可以的话,我们就可以在ETL处理过程中,按天来汇总数据,此时,数据仓库中量度的粒度就是“天”;反过来,如果我们不能确认将来的分析需求在时间上是否需要精确到秒,那么,我们就需要遵循“最小粒度原则”,在数据仓库的事实表中保留每一秒的数据,以便日后对“秒”进行分析。在采用“最小粒度原则”的同时,我们不必担心海量数据所带来

8、的汇总分析效率问题,因为在后续建立多维分析模型(CUBE)的时候,我们会对数据提前进行汇总,从而保障产生分析结果的效率。关于建立多维分析模型(CUBE)的相关问题,我们将在下期栏目中予以阐述。在确定了量度之后,我们要考虑到该量度的汇总情况和不同维度下量度的聚合情况。考虑到量度的聚合程度不同,我们将采用“最小粒度原则”,即将量度的粒度设置到最小。数据仓库建立“五步法”四、确定维度这里我们首先要确定维度的层次(Hierarchy)和级别(Level)(图四:pic4.bm

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。