数据挖掘概念与技术原书第2版第4章-数据立方体计算与数据泛化体.ppt

数据挖掘概念与技术原书第2版第4章-数据立方体计算与数据泛化体.ppt

ID:37374206

大小:1.51 MB

页数:8页

时间:2019-05-22

数据挖掘概念与技术原书第2版第4章-数据立方体计算与数据泛化体.ppt_第1页
数据挖掘概念与技术原书第2版第4章-数据立方体计算与数据泛化体.ppt_第2页
数据挖掘概念与技术原书第2版第4章-数据立方体计算与数据泛化体.ppt_第3页
数据挖掘概念与技术原书第2版第4章-数据立方体计算与数据泛化体.ppt_第4页
数据挖掘概念与技术原书第2版第4章-数据立方体计算与数据泛化体.ppt_第5页
资源描述:

《数据挖掘概念与技术原书第2版第4章-数据立方体计算与数据泛化体.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、数据泛化◦通过将相对层次较低的值(如属性age的数值)用较高层次的概念(如青年、中年、老年)置换来汇总数据12(青年,中年,老年)概念层345(17,18,19,…,34,35,36,…,56,57,…)主要方法:◦数据立方体(OLAP使用的方法)◦面向属性的归纳方法12数据泛化从数据分析的角度看,数据挖掘可以分为描述性挖◦数据库中的数据和对象通常包含原始概念层的细节信息,数掘和预测性挖掘据泛化就是将数据库中的跟任务相关的大型数据集从相对较低的概念层抽象到较高的概念层的过程。◦描述性挖掘:以简洁概要的方式描述数据,并提供数据的有趣的一

2、般性质。1E.g.数据泛化就是一种描述性数据挖掘2(Month,*,*)◦预测性数据挖掘:通过分析数据建立一个或一组模型,并概念层3试图预测新数据集的行为。4E.g分类、回归分析等5(Month,city,customer_group)主要方法:◦数据立方体(OLAP使用的方法)◦面向属性的归纳方法34数据立方体有利于多维数据的联机分析处理数据立方体可以被看成是一个方◦数据立方体使得从不同的角度对数据进行观察成为可能体的格,每个方体用一个()group-by表示最底层的方体ABC是基本方体,方体计算(物化)的挑战:海量数据,有限

3、的内存ABC包含所有3个维和时间◦海量数据运算对大量计算时间和存储空间的要求最顶端的方体(顶点)只包含一个单元的值,泛化程度最高ABACBC上卷和下钻操作与数据立方体的对应ABC56基本方体的单元是基本单元,非基本方体的单元是聚集为了确保快速的联机分析,有时希望预计算整个立单元方体(所有方体的所有单元)◦聚集单元在一个或多个维聚集,每个聚集维用"*"表示◦n维数据立方体包含2n个方体◦E.g.(city,*,year,measure)◦如果考虑概念分层◦m维方体:(a1,a2,...,an)中有m个不是"*"nT(L1)祖先和

4、子孙单元i◦i-D单元a=(a1,a2,...,an,measuresa)是j-D单元b=(b1,b2,...,bn,部分物化是存储空间和响应时间的折中方案i1measureb)的祖先,当且仅当◦事实上,很多高维方体都是稀疏的(包含很多度量值为0(1)i=min_sup)来减轻计算数据立方体分物化的方体

5、称之为冰山方体。比如:中不重要的聚集单元的负担,然而仍有大量不感兴趣的单元需要计算COMPUTECUBESales_IcebergAS◦比如:最小支持度为10,假定100维的数据立方体有两个SELECTmonth,city,cust_grp,COUNT(*)基本方体:{(a1,a2,a3,…,a100):10,(a1,a2,b3,…,b100):10},FROMSales_Info假设冰山条件为最小支持度10CUBEBYmonth,city,cust_grp101则需计算和存储的单元仍是海量:2-6个HAVINGCOUNT(*)>

6、=min_sup如:(a1,a2,a3,…,a99,*):10,(a1,*,a3,…,a100):10910闭单元部分物化的另外一种策略:仅预计算涉及少数维的◦一个单元c是闭单元,如果单元c不存在一个跟c有着相同度量值方体(比如3到5维),这些立方体形成对应数据立的后代d方体的外壳◦例如:上述例子中,任何一个(a1,a2,a3,*,*,…,*):10,都和他的后代有相同度量值◦利用外壳对其他的维组合查询进行快速计算◦仍将导致大量方体(n很大时),类似的我们可以利用方闭立方体:一个仅有闭单元组成的数据立方体◦例如:体的兴趣度,选择只预计

7、算立方体外壳的部分(a1,a2,*,*,…,*):20(a1,a2,a3,…,a100):10(a1,a2,b3,…,b100):101112一般,有两种基本结构用于存储方体优化技术2:同时聚集和缓存中间结果◦关系OLAP(ROLAP)◦由先前计算的较低层聚集来计算较高层聚集,而非从基本方体开始计算,减少I/O底层使用关系模型存储数据◦多维OLAP(MOLAP)优化方法3:当存在多个子女时,由最小的子底层使用多维数组存储数据女聚集无论使用哪种存储方法,都可以使用以下立方体计算◦例如,计算Cbranch,可以利用C(branch,y

8、ear)或者的一般优化技术C(branch,item),显然利用前者更有效◦优化技术1:排序、散列和分组优化技术4:可以使用Apriori剪枝方法有效的将排序、

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。