欢迎来到天天文库
浏览记录
ID:39535993
大小:283.25 KB
页数:29页
时间:2019-07-05
《《数据仓库原理》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第二章数据仓库原理2.1数据仓库的数据模型产品北京上海化妆品江苏玩具服装电器1234时间(月)销售数量:10000服装切片两类表:一、维表:用来记录维度信息。二、事实表:用来存储多维模型中维度交叉点处的度量值和码值。1.星型模型产品ID时间ID销售商ID地址ID产品ID销售商ID地址ID时间ID销售数量销售成本总收入销售商维度表地理位置维表时间维表产品维表2.雪花模型3.星座模型4.雪暴模型2.2维表和事实表的数据存储产品北京上海化妆品江苏玩具服装电器1234时间(月)销售数量:10000服装切片2.3联机分析处理(OLAP)什么是OLAP?OLAP是针对某个特定的主题
2、进行联机数据访问、处理和分析,通过直观的方式从多个维度、多种数据综合程度将系统的运营情况展现给使用者。两个特点,在线性(On_Line),多维分析(Multi_Analysis)ii)OLAP的相关基本概念维、维的层次、维成员、多维数据集、数据单元、多维数据集的度量值和聚集1.维“上卷”“下钻”销售地区西南华中华东四川云南河南湖北江苏上海维的层次关系和类关系简单层次复杂层次全国江苏北京上海苏州市扬州市宝应县维的类关系类的划分,只能依据同一层次的维成员集合来划分维的层次与类组合图产品维产品大类产品用途类产品销地类产品产地类产品小类2.多维数据集产品北京上海化妆品江苏玩具服
3、装电器1234时间(月)销售数量:10000服装切片3.维成员维的取值。4.多维数据集的度量值多维数据集的核心值5.数据单元即多维数组的取值。数据单元可以表示为:(维1维成员,维2维成员,维3维成员,维4维成员,观察变量值)iii)多维分析是指对多维数据集中的数据用切片、切块和旋转等等方式分析数据,使用户能够多角度、多侧面地去观察数据仓库中的数据。1.多维的切片(维1,维2,……,维i成员,……,维n,观察变量)是多维数据集(维1,维2,……,维i,……,维n,观察变量)在维i上的一个切片2.多维的切块在(维1,维2,……,维i,……,维k,……,维n,观察变量)多维数
4、据集上,对维i,……,维k,选定了维成员,那(维1,维2,……,维i成员,……,维k成员,……,维n,观察变量)就是多维数据集(维1,维2,……,维i,……,维k,……,维n,观察变量)在维i,……,维k上的一个切块3.旋转北京市上海市天津市2002年1季度123134672季度56103733季度4598594季度6687962003年1季度134102732季度56139693季度2397624季度5582944.数据的上探、下钻数据的上探:是指在某一维上将低层次的细节数据概括到高层次的汇总数据。数据的下钻:是指从某维上汇总数据深入到细节数据进行观察。Eg:指定“商
5、店=广州所有商店”,(行为部门,列为时间和销售量)如表所示,表中无括号数为增长率,有括号表示下降率。对于汽车部门出现的奇怪现象,销售下降了13.2%,而利润却增加了21.4%,此时分析是什么原因?项目2004年2005年增长率%销售量利润增长%销售量利润增长%销售量利润增长%服装23467027.238110221.562.4(20.0)家具6254833.86600531.15.6(8.0)汽车37509822.432540227.2(13.2)21.4所有其他20238821.330667721.750.71.9对汽车部门向下钻取出具体项目(维修、配件、附件)的销售
6、情况和利润增长情况。项目2004年2005年增长率%销售量利润增长%销售量利润增长%销售量利润增长%汽车37509822.432540227.2(13.2)21.4维修19505114.218078615.0(7.3)5.6配件11628043.912254547.55.38.2附件637678.22207114.2(63.4)7.32.4OLAP的实施业务处理系统第三层第二层第一层客户端数据抽取数据清理、转换数据加载多维化处理可视化处理图4.7数据仓库与OLAP关系图数据仓库OLAP服务器数据准备区2.5数据抽取,转换和装载ETL过程:数据的抽取(extraction
7、),转换(transform)和装载(load)过程。1.数据的抽取工作:Eg:确认数据源—检查和确定数据源是否可以提供数据仓库需要的数据。2.数据转换:Eg:选择、转换、汇总、分离/合并等。3.数据装载:分三种类型:最初装载、增量装载和完全刷新。2.5元数据一概念元数据是关于数据的数据。二分类和组成根据元数据在DW中所承担的任务,将元数据分为:静态元数据---与数据结构有关。动态元数据---与数据的状态和使用方法有关。静态元数据包括:名称,描述,格式,数据类型,关系,来源,域,业务规则等.描述:主要是对DW中的各种数据元素进行说明.关系
此文档下载收益归作者所有