欢迎来到天天文库
浏览记录
ID:55810439
大小:132.50 KB
页数:49页
时间:2020-06-03
《数据仓库与数据挖掘课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库。
1、第4章数据仓库的设计与开发(一)4.1数据仓库分析与设计4.2数据仓库开发4.3数据仓库技术与开发的困难14.1数据仓库分析与设计4.1.1需求分析4.1.2概念模型设计4.1.3逻辑模型设计4.1.4物理模型设计4.1.5数据仓库的索引技术24.1.1需求分析1.确定主题域2.支持决策的数据来源3.数据仓库的成功标准和关键性能指标4.数据量与更新频率31.确定主题域(1)明确对于决策分析最有价值的主题领域有哪些?如一个商业企业确定客户和商品为主题。而商品对商场更为重要。(2)每个主题域的商业维度是哪些?每个维度的粒度层次有哪些?(3)制定决策的商业分区是什么
2、?(4)不同地区需要哪些信息来制定决策?(5)对哪个区域提供特定的商品和服务?42.支持决策的数据来源(1)哪些源数据(操作型)与商品主题有关?(2)在已有报表和在线查询中得到什么样的信息?(3)提供决策支持的细节程度是怎样的?53.数据仓库的成功标准和关键性能指标(1)衡量数据仓库成功的标准是什么?(2)哪些关键的性能指标?如何监控?(3)对数据仓库的期望是什么?(4)对数据仓库的预期用途有哪些?(5)对计划中的数据仓库的考虑要点是什么?64.数据量与更新频率(1)数据仓库的总数据量有多少?(2)决策支持所需的数据更新频率是多少?时间间隔是多长?(3)每种决
3、策分析与不同时间的标准对比如何?(4)数据仓库中的信息需求的时间界限是什么?7通过需求分析,需要的数据包括:1.数据源(1)可用的数据源(2)数据源的数据结构(3)数据源的位置(4)数据源的计算机环境(5)数据抽取过程(6)可用的历史数据82.数据转换数据仓库中的数据是为决策分析服务,而源系统的数据为业务处理服务。需要决定如何正确地将这些源数据转换成适合数据仓库存储的数据。93.数据存储数据仓库所需要的数据的详细程度,包括足够的关于存储需求的信息,估计数据仓库需要多少历史和存档数据。104.决策分析(1)向下层钻取分析(2)向上层钻取分析(3)横向钻取分析(4
4、)切片分析(5)特别查询报表114.1.2概念模型设计把用户需求抽象为信息结构,就是概念模型。概念模型常用的表示方法是实体-关系法,即E-R图124.1.2概念模型设计概念模型的特点是:(1)能真实反映现实世界,能满足用户对数据的分析,达到决策支持的要求,它是现实世界的一个真实模型。(2)易于理解,便利和用户交换意见,在用户的参与下,能有效地完成对数据仓库的成功设计。(3)易于更改,当用户需求发生变化时,容易对概念模型修改和扩充。(4)易于向数据仓库的数据模型(星型模型)转换。13例子有两个主题:商品和客户,主题也是实体。商品有如下属性组:商品的固有信息(商品
5、号、商品名、类别、价格等);商品库存信息(商品号、库房号、库存量、日期等);商品销售信息(商品号、客户号、销售量等);客户有如下属性组:客户固有信息(客户号、客户名、住址、电话等);客户购物信息(客户号、商品号、售价、购买量等)。商品的销售信息与用户的购物信息是一致的,它们是两个主题之间的联系。14商品商品固有信息商品号商品库存信息销售信息购物信息客户客户固有信息客户号=154.1.3逻辑模型设计主要工作为:(1)主题域进行概念模型(E—R图)到逻辑模型(星型模型)的转换(2)粒度层次划分(3)关系模式定义(4)定义记录系统161、主题域进行概念模型到逻辑模型
6、的转换。星型模型的设计步骤如下:(1)确定决策分析需求决策需求是建立多维数据模型的依据。(2)从需求中识别出事实选择或设计反映决策主题业务的表,如在“商品”主题中,以“销售业务”作为事实表。(3)确定维确定影响事实的各种因素,对销售业务的维包括商店,地区,部门,城市,时间,商品等,如图4.2所示。17销售数据和维销售数据商品促销时间部门城市地区商店图4.2销售业务的多维数据18(4)确定数据汇总水平数据仓库中对数据不同粒度的集成和综合,形成了多层次、多种知识的数据结构。例如,对于时间维,可以以“年”、“月”或者“日”等不同水平进行汇总。(5)设计事实表和维表设
7、计事实表和维表的具体属性。在事实表中应该记录哪些属性是由维表的数量决定的。一般来说,与事实表相关的维表的数量应该适中,太少的维表会影响查询的质量,用户得不到需要的数据,太多的维表又会影响查询的速度。19(6)按使用的DBMS和分析用户工具,证实设计方案的有效性根据系统使用的DBMS,确定事实表和维表的具体实现。由于不同的DBMS对数据存储有不同的要求,因此设计方案是否有效还要放在DBMS中进行检验(7)随着需求变化修改设计方案随着应用需求的变化,整个数据仓库的数据模式也可能会发生变化。因此在设计之初,充分考虑数据模型的可修改性可以节省系统维护的代价。20从的E
8、—R图转换成星型模型实例说明(1)业务
此文档下载收益归作者所有