(已发表)基于holap的关联规则挖掘

(已发表)基于holap的关联规则挖掘

ID:19517551

大小:247.00 KB

页数:6页

时间:2018-10-03

(已发表)基于holap的关联规则挖掘_第1页
(已发表)基于holap的关联规则挖掘_第2页
(已发表)基于holap的关联规则挖掘_第3页
(已发表)基于holap的关联规则挖掘_第4页
(已发表)基于holap的关联规则挖掘_第5页
资源描述:

《(已发表)基于holap的关联规则挖掘》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、基于HOLAP的关联规则挖掘基于HOLAP的关联规则挖掘AssociationRuleMiningonHybridOLAP周爱广李玉忱蒋志芳曹璐(山东大学计算机科学与技术系250061)摘要:本文提出了一种基于关系数据库和一维内存数组相结合的HOLAP的实现方式,以及基于这种数据立方体的改进的关联规则挖掘算法。在预处理的基础上,减少扫描空间和扫描次数,利用聚合数据减少计算时间,以达到一种OLAP和数据挖掘相结合的高效模式。Abstract:Inthisarticle,weintroducedarea

2、lizationofHOLAPbasedontheRDBMSandonedimensionalcachearray.Animprovedassociationruleminingalgorithmonthiskindofdatacubewaspresentedatthesametime.Pre-processingofdatahelpstoreducetheroomandtimesforscan.Informationofmultidimensionalaggregationreducethetim

3、eoncomputation.ThegoalofthisarticleistogeneralizeacombinedefficientpatenofOLAPanddatamining.关键词:OLAP,HOLAP,数据立方体,聚合计算,关联规则,数据挖掘1、引言数据挖掘(DataMining)是一种从大型数据库或数据仓库中发现隐藏信息和预测信息的新技术。它的目标是发现数据间潜在的模式,找出最有价值的信息。关联规则发现[2][3]作为数据挖掘的任务之一就是发现数据对象间的某种有价值的相互联系和满足一定

4、条件的互相依赖关系,可以形式化为A1^A2^……^Ai=>B1^B2^……^Bj。但是当前众多的关联规则挖掘算法存在的主要问题是实现起来困难。原因是挖掘工作在大型数据库或数据仓库中进行,大量的属性导致搜索空间过大,生成大量的无意义或有悖常识的冗余模式。Han.J.W等在数据立方体的基础上提出多维数据挖掘[1]的概念,将数据挖掘功能与OLAP(On_LineAnalyticalProcessing)的聚合计算相结合,在数据立方体中进行多维、多层次的数据挖掘。这样就可以结合OLAP和数据挖掘两方面的优点

5、,既具有OLAP的在线、灵活性,又具有数据挖掘的深入性。这也是数据仓库技术和数据仓库工具发展的必然方向。为了探索将数据挖掘和OLAP技术实现结合,本文提出了一种基于HOLAP(HybridOLAP)的关联规则挖掘算法:在关系型数据库的基础上,引入一维数组来实现多维聚合数据立方体,形成一种混合型OLAP模式,然后给出一种先聚合计算然后在聚合数据的基础上进行关联规则挖掘的算法。实验结果证明基本达到了预期目的。2、基于关系和内存一维数组的HOLAP的实现2.1ROLAP与MOLAP的分析当前应用中多数OL

6、AP实现方式是基于关系数据库的ROLAP和基于多维数据库的MOLAP。ROLAP是使用传统的关系数据库(RDB)通过星型结构或雪花型结构[4]来实现数据立方体,而且文献[8]还在SQLGroup-By操作的基础上扩充了CUBE操作符使立方体操作具体化。ROLAP的优点是查询操作灵活,但是在数据预处理程度较低的情况下,查询效率将很低,预处理程度高时,又会带来较大的数据冗余。MOLAP是使用多维数据库(MDB)来存储OLAP分析用的数据,MDB在存储数据时,最简单的形式就是使用稀疏数组[5]来实现,数组

7、的维作为坐标轴,将数据在立方体中的位置映射为在数组中的位置。MOLAP的优点是响应时间短,缺点是数据立方体必须事先定义好,因此灵活性差,并且经过比较复杂的预处理,内存开销大。通过以上分析,ROLAP和MOLAP各有利弊,于是产生了两者相结合的方式HOLAP。2.2HOLAP的实现HOLAP的实现方式有多种,其中较为理想的方式目前公认为是利用MDB存储聚合信息,而利用RDB存储细节数据。下面讨论如何实现聚合数据立方体。定义1:(数据立方体)数据立方体是一个5元组,CUBE=(D,M,DOM,f,agg

8、r)。D={d1,…,dn}称为维标识集;M={m1,…,mm}称为指标标识集;DOM=dom1´…´domk为属性集取值域;f为D到M的在DOM上的部分映射;aggr为D上的聚合函数。这是数据立方体的一个一般的形式化定义。更具体化的定义根据实现方式的不同而不同,主要区分在存储方式上。下面给出MDB存储方式下的数据立方体的定义。第6页共6页基于HOLAP的关联规则挖掘定义2:(稀疏数组数据立方体)稀疏数组数据立方体是一个多维数组MD={D1,…,Dn},其中维数组Di

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。