数据仓库中的粒度

数据仓库中的粒度

ID:42903646

大小:963.00 KB

页数:26页

时间:2019-09-25

数据仓库中的粒度_第1页
数据仓库中的粒度_第2页
数据仓库中的粒度_第3页
数据仓库中的粒度_第4页
数据仓库中的粒度_第5页
资源描述:

《数据仓库中的粒度》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第四章数据仓库中的粒度SZ1516029_李航摘要:4.1粗略估算4.2规划过程的输入4.3溢出存储器中的数据4.4确定粒度级别4.5一些反馈循环技巧4.6确定力度级别的几个例子4.7填充数据集市4.8小结4.1粗略估算粒度:粒度是数据仓库中数据单元的细节程度或综合程度的级别。粒度与细节程度的关系:粒度级别越高,细节程度越低,反之,粒度级别越低,细节程度越高。粒度细节级别分为:早期细节级,当前细节级,轻度细节级和高度细节级。确定数据仓库中数据的恰当粒度是数据仓库开发者需要面对的一个重要设计问题。如果数据仓库的粒度

2、确定的合理,设计和实现中的其余方面就可以进行的非常舒畅;相反,如果粒度确定的不合理,就会使得所有方面都难以进行。粒度的主要问题是使其处于合适的级别,粒度级别既不能太高也不能太低。粗略的数据估计确定适当的粒度级别所要做的第一件事就是对数据仓库中将来的数据进行数据行数和所要的DASD(直接存取存储设备)数进行粗略估算。这仅仅是数量级的估计。图4-1给出了一个计算数据仓库占用空间的方法路径。第一步是确定数据仓库中将要创建的所有表。然后估计每张表的大小,估计一个上届一个下届足矣。接下来,估计一年内表中可能的最少行数和最多

3、行数。估计一年内数据仓库中数据单元的数量后,重复用同样方法对五年内的数据进行估计。图4-1空间行计算计算索引数据空间粗略数据估计完成之后,还要计算一下索引数据占据的空间。确定每张表的关键字或数据元素的长度,并弄清楚是否原始表中的每条记录都存在关键字。索引数据所占空间=索引数目*关键字长度最终数据总量=索引数据占据的空间+粗略数据估算的空间需要注意的是,对数据仓库大小的估计预测几乎总是偏低,而且,数据仓库的增长速率一本比预测的还要快。4.2规划过程的输入估计出的行数和DASD数就成了规划过程的输入。进行估计时,结果

4、只要达到数量级就行了,更精确的准确度只不过是浪费时间。如图4-24.3溢出存储器中的数据对数据仓库大小估计的粗略估计完成后,需要根据数据仓库环境中将具有的总行数的多少,对比图4-3,采取不同的设计,开发以及存储方法。对于五年期,总行数将大致变了一个数量级或更多。经推测,五年后可能出现如下因素:1.在管理数据仓库中大量数据时,将有更多的专门的技术2.硬件费用将会有所下降3.将可以使用功能跟加强大的软件工具4.最终用户将更加专业化图4-3将数据仓库环境中的总行数与本表进行对照溢出存储器数据仓库中数据正以IT专业人员前

5、所未见的速率增长。历史数据与细节数据的结合造成了这种显著的增长速率。在数据仓库出现之前,“万亿字节”和“千万亿字节”这些字眼还只运用于理论中。随着数据不断增长,经常使用的数据与不经常使用的数据出现了自然分化。不经常使用的数据,我们称它们为睡眠数据或不活跃数据。分离这部分数据,并将它们存储到另一种存储介质上去是有非常意义的。数据仓库中经常使用的数据仍留在高性能的磁盘存储器中,而将不经常使用的数据转移到海量存储器或近线存储器中。将数据存在海量备用存储器或近线存储器中比存储在磁盘存储器中要便宜的多,而且,数据存储在海量

6、备用存储器或近线存储器中并不是说不能访问了。海量备用存储器和近线存储器中存储的数据与磁盘中存储的数据一样可以访问。这样做可以大大提高整个环境的性能。为了能在整个系统范围内访问数据,并为了能将不同的数据存放在存储器的合适位置点上,要求能为海量备用存储器/近线存储器提供软件支持。如图4-4:图4-4使用海量溢出存储器要有相应的软件支持有效的使用海量备用存储器/近线存储器至少需要具备三个软件组成部分:监控仓库数据的使用跨介质存储管理器近线/海量备用存储器直接访问与分析溢出存储器要正常发挥作用也至少需要前两个软件支持存放

7、不常用的数据的溢出存储器是数据仓库的一个重要组成部分,对粒度有很大影响。如果没有这种存储器,设计者必须将粒度级别调整到磁盘技术的容量和预算允许的水平。有了溢出存储器,设计者可以放手建立想要的低粒度级别。为了提高性能,降低查询代价,强力建议数据体系结构设计人员要保证存储于海量备用存储器中的数据不被经常访问。有几种方法保证不经常访问存储于海量备用存储器的数据。一种简单的方法是当数据达到一段时间(如24个月)才将它们存放到海量备用存储器中。另一种方法是将某些类型的数据存储在海量备用存储器中,而将其他类型的数据存储于磁盘

8、存储器中。4.4确定粒度的级别确定粒度的级别,有事需要一些常识和直觉。在很低的粒度级别上建立基于磁盘的数据仓库是没有意义,因为处理这些数据需要太多的资源。而在太高的粒度级别上建立基于磁盘的数据仓库,则意味着许多分析必须依靠溢出存储器中的数据进行。因此,确定适当的粒度级别要做的第一件事就是进行一次合理的推测。对于轻度综合的数据,为了确定合适的粒度级别,唯一可行的方法是将数据

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。