数据立方体计算与数据泛化.ppt

数据立方体计算与数据泛化.ppt

ID:56373790

大小:100.00 KB

页数:32页

时间:2020-06-14

数据立方体计算与数据泛化.ppt_第1页
数据立方体计算与数据泛化.ppt_第2页
数据立方体计算与数据泛化.ppt_第3页
数据立方体计算与数据泛化.ppt_第4页
数据立方体计算与数据泛化.ppt_第5页
资源描述:

《数据立方体计算与数据泛化.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库

1、第四章数据立方体的计算与数据泛化本章,我们将更详细的考察描述性数据挖掘。描述性数据挖掘,它以简洁和汇总的方式描述数据,并提供数据有趣的一般性质。本章内容主要包括三节:第一节:考察如何有效地在不同的抽象层计算数据立方体,深入考察数据立方体计算的具体方法。第二节:提供OLAP和数据立方体的进一步探查方法。第三节:介绍另一种数据泛化方法,面向属性的归纳。第一节数据立方体计算的有效方法1、不同类型立方体物化的路线图数据立方体有利于多维数据的联机分析处理。本节将完全立方体物化与部分立方体物化的各种策略进行比较。为完整起见,我们首先回顾设计数据立方体的

2、基本术语。■立方体物化数据立方体是方体的格。每个方体用一个group-by表示。基本方体是数据立方体中泛化程度最低的方体,泛化程度最高的方体是顶点方体,通常用all表示。它包含一个值,对于存放在基本方体中的所有元组聚集度量M。对立方体下钻,就是从顶点方体沿方体格向下移动;上卷就是从基本方体向上移动。本章讨论的目的是使用术语数据立方体的格而不是单个方体。基本方体的单元是基本单元,非基本方体的单元是聚集单元。聚集单元在一个或多个维聚集。聚集单元在一个或多个维聚集,其中每个聚集维用单元记号中的*指示。聚集的维数不同,单元之间可能存在祖先-子孙关系

3、。为了确保联机分析处理,有时希望预计算整个立方体,但是,预计算整个立方体需要海量空间,常常超过存储容量。尽管这样,完全立方体计算的算法仍然很重要。部分物化则在存储空间和OLAP的响应时间之间提供了有趣的折衷。冰山立方体就是一种部分物化的方法,这种方法只对满足阙值的方体物化。冰山立方体的SQL查询:computercubesales_icebergasSelectmonth,city,customer_group,count(*)FromsalesinfoCubebymonth,city,customer_groupHavingcount(*

4、)﹥﹦min_sup为了系统的压缩数据立方体,需要引入闭覆盖的概念。一个单元c是闭单元,即如果不存在单元d使得d是单元c的特殊化(后代)(即d通过将c中的*值用非*值替换),并且d与c具有相同的度量值。闭立方体是一个仅由闭单元组成的数据立方体。部分物化的另一种策略是仅预计算涉及少数维(如3到5个维)的方体,这些方体形成对应数据立方体的外壳,对附加的维组合的查询必须临时计算。■立方体计算的一般策略一般,有两种基本数据结构用于存储方体。关系表是关系OLAP实现的基本数据结构,而多维数组是多维OLAP实现的基本数据结构。尽管ROLAP和MOLAP

5、可能使用不同的立方体计算技术,但是某些“优化”技巧可以在不同的数据表之间共享。下面介绍一些数据立方体有效计算的一般优化技术:●排序、散列和分组应当对维属性使用排序、散列和分组操作,以便对相关元组重新定序和聚类。在立方体计算中,聚集对共享一组相同的纬值的元组(或单元)进行。这样,重要的是利用排序、散列和分组操作一起访问和分组这样的数据,以利于聚集的计算。●同时聚集和缓存中间结果在立方体计算中,由先前计算的较低层聚集计算叫高层聚集,而不是由基本事实表计算。此外,从缓存的中间计算结果同时聚集可以减少开销很大的磁盘I/O操作。●当存在多个子女方体时

6、,由最小的子女聚集当存在多个子女立方体时,由最小的,先前计算的子女方体计算父母方体(即更泛化的方体)通常更有效。●可以使用Apriori剪枝方法有效地计算冰山立方体Apriori性质表述如下:如果给定的单元不满足最小支持度,则该单元的后代也都不满足最小支持度。使用这个性质可以显著地降低冰山立方体的计算量。2、完全立方体计算的多路数组聚集多路数组聚集方法使用多维数组作为基本数据结构,计算完全数据立方体。它是一种使用数组直接寻址的典型MOLAP方法,其中维值通过位置或对应数组位置的下标访问。因此,多路数组聚集不能使用任何基于值的重新排序作为优化

7、技术。所使用的一种不同的方法是为基于数组的立方体结构开发的:●将数组分成块。块是一个子立方体,其大小能够放入立方体计算时可用的内存。分块是一种将n维数组划分成小的n维块的方法,其中每块作为一个对象存放在磁盘上。●通过访问立方体单元(即存取立方体单元的值)计算聚集。由于分块设计“重叠”某些聚集计算,称该技术为多路数组聚集,它进行同时聚集——即同时对多个维计算聚集。我们现在通过一个具体的例子来说明多路数组立方体计算。考虑一个包含维A、B、C的3-D数组。维A组织成4个相等划分的a0、a1、a2、a3。维B、C类似地划分成4部分。●基本方体记作A

8、BC(其他方体间接或直接的由它计算)。该方体业已计算,并对应于给定的3-D数组。●2-D方体AB,AC和BC分别对应于按AB,AC和BC分组。这些方体必须计算。●1-D方体A,B

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。