欢迎来到天天文库
浏览记录
ID:61278296
大小:2.81 MB
页数:37页
时间:2021-01-23
《数据仓库2教学教材.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、数据仓库2数据仓库中的数据组织形式轮转综合结构:数据存储单位被分为日、周、月、年等几个级别。达到一定的设置,则被综合,层层集中。含量大大减少,但损失了许多数据细节,越久远的数据损失越多。轮转综合结构数据组织形式见下图。数据仓库中的数据组织形式简单直接结构:类似于简单堆积文件,但不是每天集成后放入数据仓库,而是间隔一定的时间间隔。也可以看成是按一定时间间隔对数据库的采样。数据仓库中的数据组织形式连续结构:多个或更多的连续的简单直接结构的数据组织形式,可以生成另一种连续结构数据组织形式的文件。数据仓库的说明—标准手册描述什么是数据仓库。输入数据的
2、源系统。如何使用数据仓库。有了问题如何获得帮助。何时向数据仓库中加入数据。可利用的元数据的说明。数据仓库中缺少什么类型的数据。数据仓库的记录系统是什么。等等,……数据仓库的清理数据加入到轮转综合结构数据组织形式的文件中。数据从高性能的介质转移到大容量的介质上。数据从数据仓库系统中真正清除。数据从体系结构的一个层次转移到另一个层次等。数据仓库系统的设计数据仓库系统设计与数据库系统设计的不同面向的处理类型不同。面向的需求不同。系统设计的目标不同。两者的数据来源或系统的输入不同。系统设计的方法和步骤不同。数据仓库系统的设计数据仓库系统的设计方法生命
3、周期法(SDLC)。螺旋式开发方法(CLDS)。数据仓库系统的设计数据驱动利用以前所取得的工作成果。不再是面向应用。利用数据模型。数据驱动数据仓库数据模型与操作型数据库三级数据模型的区别不包含纯操作型数据。扩充了码结构,增加了时间属性作为码的一部分。增加了一些导出数据。数据仓库设计的三级数据模型概念数据模型是主观与客观之间的桥梁,是客观世界到机器世界的一个中间层次。某一信息结构就是概念数据模型。E—R图。实体与实体之间的联系。矩形:表示实体,在数据仓库中表示主题。椭圆形:表示主题的属性,并用无向边把主题与其属性连接起来。菱形:表示主题之间的联
4、系。用无向边把菱形与有关的主题联系起来。属性与主题也可以用菱形连接。逻辑数据模型关系:二维表。元组:一行一个元组。属性:列。主码:域:属性的取值范围。分量:元组中的一个属性组。关系模式:对关系的描述表示。物理数据模型物理数据模型就是逻辑数据模型在数据仓库中的实现。物理存取方式数据存储结构数据存放位置存储分配等高层数据模型、中间层数据模型和低层数据模型高层数据模型:对数据抽象程度大,主要使用E—R图。中间层数据模型:对高层数据模型中标识的每个主题都要建立中间层数据模型,有以下4种基本结构:联接数据组:本主题域与其他主题域之间的联系。基本数据组:
5、属于不会变化的项。二次数据组:基本不变化,但又存在变化可能的项。类型数据组:经常变化的数据项。低层数据模型。就是物理数据模型。提高数据仓库的性能粒度划分。一般划分为详细数据、轻度综合、高度综合三级,也可更多级。粒度划分不是取决于数据量的大小,而是总的行数。划分方法如下:估算:数据仓库中数据行数和所需占用空间的大小。确定粒度划分:根据前面的估算,进行粒度划分提高数据仓库的性能数据分割。数据库中的数据分片概念:水平分片、垂直分片、混合分片和导出分片。按时间进行数据分割。按地理分布进行分割,按业务进行分割等。分割标准。考虑数据量大小、简单易行。其他
6、设计问题合并表。对常用的查询进行合并。建立时间序列。也就是建立数据序列,降低物量I/O的次数。引入冗余。相同的属性引入到多个主题中。表的物理分割。将一个表分割成几个表。生成导出数据。最好是建立公用数据源。建立广义索引。经常用到的查询,可以建立广义索引,但必须有对广义索引的详尽的说明。数据仓库的设计步骤概念模型设计技术准备工作逻辑模型设计物理模型设计数据仓库生成数据仓库运行与维护数据仓库数据的访问数据仓库数据的直接访问数据处理不具有在线的特性,时间较长。数据量必须是最小的量。管理数据仓库的技术必须同管理操作型数据环境的技术相一致。提取的数据必须
7、不做或做最小的格式化。数据仓库数据的访问数据仓库数据的间接访问分析程序:尽可能具有人工智能,兼容种种数据库、后台运行等。周期性刷新。选择合适的刷新频率,替代式刷新,传送技术。分析结果的新文件:每个数据单元包括少量数据,可以有多个数据单元,访问效率高,并且访问到单个的数据单元。数据仓库间接访问实例数据仓库的应用领域全局应用。企业发展过程中形成的多种独立的应用系统。复杂系统。各种数据的操作,主要为决策支持服务。此课件下载可自行编辑修改,仅供参考!感谢您的支持,我们努力做得更好!谢谢
此文档下载收益归作者所有