数据仓库的管理和应

数据仓库的管理和应

ID:27496618

大小:575.01 KB

页数:65页

时间:2018-12-03

数据仓库的管理和应_第1页
数据仓库的管理和应_第2页
数据仓库的管理和应_第3页
数据仓库的管理和应_第4页
数据仓库的管理和应_第5页
资源描述:

《数据仓库的管理和应》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第5章数据仓库的管理与应用内容提要5.1数据仓库管理5.2数据仓库的决策支持与决策支持系统5.3数据仓库应用实例5.1数据仓库管理5.1.1用户使用数据仓库的管理5.1.2数据管理为什么需要对数据仓库进行管理?数据仓库中的数据也会随时间的延伸迅速的增长。(1)数据仓库收集历史数据。(2)数据仓库包含满足未知需求的数据集。(3)数据仓库既包括了详细数据也包括了汇总数据。(4)数据仓库还包含外部数据。5.1.1用户使用数据仓库的管理1.信息使用者使用数据仓库的性能优化2.探索者使用数据仓库的性能优化1.信息使用者使用数据仓库的性能优化非规格化创建数据阵列预连接表格预聚集数

2、据聚类数据压缩数据定期净化数据合并查询2.探索者使用数据仓库的性能优化(1)概括分析分析数据的完整性和准确性(数据质量)。(2)抽取数据抽取的任务就是从数据仓库中抽取指定的数据,并组织起来,送入支持探索者分析的探索仓库中。(3)建模通过概括分析来理解数据,通过抽取来准备数据,通过建模来分析数据。5.1.2数据管理5.1.2.1休眠数据5.1.2.2脏数据的产生和清理5.1.2.3监视数据5.1.2.4元数据管理5.1.2.1休眠数据1.休眠数据概念休眠数据是那些存在于数据仓库中当前不使用,将来也很少使用或不使用的数据。数据仓库中的数据随着时间的延续,数据被使用的情况会

3、减少,休眠数据随之逐年增加。一些事实:国外的统计表明:第1年内,数据仓库近期数据和综合数据几乎被全部使用。第2年内,休眠数据开始出现,数据仓库中的数据不少未被使用。第3年内,休眠数据在增长。第4年内,休眠数据迅速增长。设数据仓库的数据量为D,数据处理次数为n,平均每次处理数据的字节数为d,则一年中数据处理的总数据量为:nd。在各次数据处理过程中,可能会出现数据的重复使用,我们用系数a表示为:2.休眠数据的产生与查找(1)休眠数据的产生①在数据仓库中输入了过多的近期基本数据。②过多的增加了不必要的综合数据。③超过预测需求的历史数据均是休眠数据(2)查找休眠数据查找休眠

4、数据的最好方法是监视用户查询数据仓库的活动。①监视用户查询的SQL语句。②监视返回给用户的查询结果数据集。数据仓库管理员能知道哪些数据没有被使用,它们很可能就是休眠数据。3.删除休眠数据(1)直接删除休眠数据①删除用户不访问的数据。②通过数据访问模型来删除休眠数据。(2)对休眠数据归档存储(3)邻线(NearLine)存储“邻线”存储是一种二级数据存储方式。“邻线”介于“在线(OnLine)”和“离线(OffLine)”之间,将休眠数据从数据仓库的在线存储中转移到邻线存储中,平时不参与数据仓库的运行。5.1.2.2脏数据的产生和清理脏数据是指在数据源中抽取、转换和装载

5、到数据仓库的过程中出现的多余数据和无用数据。1.产生脏数据的途径(1)开始时定义了一些多余的数据或由于一些不合适的转换规则在转换过程中产生的无用数据。(2)来自不同数据源的数据在数据结构、数据编码、数据定义等方面是不兼容的,在集成这些数据时未对所有不同情况的数据都转换成统一形式,产生遗漏或用了不匹配的转换方法而产生脏数据。(3)输入的数据已经过期。(4)用户需求的改变或数据质量有了新的要求时,那些没有适应改变要求的数据成了无用的脏数据。2.清理脏数据(1)检查抽取数据的定义和数据转换规则的正确性,对那些不合适的定义与规则所造成的脏数据进行清理。(2)在对多个数据源进行

6、集成时,清除那些遗漏或不匹配方法而产生的脏数据。(3)对过期数据,对数据量较少时进行重新整理;对数据量大时,增加一些时间限制的规则来帮助对数据的使用。5.1.2.3监视数据1.监视休眠数据2.监视脏数据5.1.2.4元数据管理1.评估元数据的价值(1)在应用程序中:描述应用程序的操作数据的机制和控制运行机制的元数据,使系统开发人员就能够理解应用程序内部结构和数据之间相互关系。1.评估元数据的价值(1)在应用程序中:描述应用程序的操作数据的机制和控制运行机制的元数据,使系统开发人员就能够理解应用程序内部结构和数据之间相互关系。(2)在数据仓库环境中元数据通过三种方式发挥

7、作用。描述源数据和目标的数据模型在填充数据时描述转换集成的数据流允许终端用户使用有意义的导航数据(3)获取数据和使用数据的元数据是元数据价值最大的用途。5.1.2.4元数据管理2.管理元数据(1)支持企业范围内的体系结构理解各种元数据目录,以及它们在企业范围内的体系结构的作用。(2)基于知识库的方法元数据一般存储在属性知识库中。转移到一个共享的、公共的元数据知识库中。(3)配置管理元数据知识库必须提供标准的管理能力,如注册、退出、版本控制等。(4)支持开放的元数据交换标准企业元数据应该支持MDIS(元数据交换标准)。(5)动态交换和同步企业应该采用M

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。