olap融合于数据挖掘之模型构建

olap融合于数据挖掘之模型构建

ID:26097242

大小:56.50 KB

页数:8页

时间:2018-11-24

olap融合于数据挖掘之模型构建_第1页
olap融合于数据挖掘之模型构建_第2页
olap融合于数据挖掘之模型构建_第3页
olap融合于数据挖掘之模型构建_第4页
olap融合于数据挖掘之模型构建_第5页
资源描述:

《olap融合于数据挖掘之模型构建》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、OLAP融合于数据挖掘之模型构建-->1 OLAM模型本文提出的OLAM模型对OLAP中数据立方体和星型模式的概念分别进行了拓展,涵盖问题的整个搜索空间,能够比较全面地反映多维数据挖掘的实质.下面描述相应的理论方法、基本权标和数据结构.1.1 从数据立方体到影响域本文在OLAM模型中引进基本权标:影响域(influencedomain).影响域与多维空间的数据立方体在逻辑上是等价的.但立方体上计算的是聚合(aggregation),而影响域上计算的是蕴涵(implication),即数据中隐藏的模式.影响域同立方体一样具有属性和值,不同点

2、在于它具有置信度(confidence).立方体将维映射至度量,而影响域将维和度量映射至置信而影响域将度.一个影响域可视为一个函数,其映射关系从维和度量映射至一置信度级别.影响域可视为是广义概念上的数据立方体空间,因为影响域的大小通常比数据立方体要大得多,OLAM分析常常在更细的粒度上分析更多的维,或对多个特性之间的关系进行探索.由于每次重新计算的代价太昂贵,所以需要在比星型模式存储有更多的聚合的模式上进行,即采用下一节所提出的旋转模式.为了“遍历”整个影响域,需要将OLAP运算与影响性分析交叉.可以看出,影响域的操作可在多维和多层次的抽

3、象空间中进行,有利于灵活地挖掘知识.而文献〔3,4,5〕的操作是基于数据立方体的多维数据挖掘,包含在基于影响域的操作之内,是其中的特例.影响域概念可用面向对象的思想描述,这样有助于生成一个较好的结构化的框架.影响域包含六个主要特性:(1)基本维(类);(2)属性;(3)对象或实例;(4)层次;(5)度量;(6)蕴涵.其中,基本维是一种高层次的类型划分,如产品、客户等.每个类/维具有一属性集合,如产品维具有属性价格、颜色等.每个类/维有对象或要素作为实例,对象的每个属性具有一个值.在类和属性内存在层次,例如,对类来讲,商标类是产品的父类;对

4、属性来讲,属性集合地区,城市,省}是一个层次.度量是在维形成的空间上的计算.蕴涵是在维和度量形成的立方体空间上的计算.1.2 从星型模式到旋转模式从面向对象的角度来看,数据立方体与影响域的特性不尽相同,包含基本维(类)、属性、对象或实例、层次以及度量这五个特性,OLAP的星型模式通常直接映射在该对象结构中.星型模式每个维表都可看成一个对象,对象的属性代表在维表中的列,度量在各个维构成的空间上进行计算.图1给出一个星型模式的例子,包含四个基本维:商店维、客户维、产品维和定货维,中央的事实表中存有度量和各个基本维的码值.星型模式是用来处理聚合

5、运算的,该模式能很好地用于OLAP,但它本身不带数据挖掘功能,不能用于OLAM,因此需要将星型模式作相应扩展.在对影响域进行分析的过程中,通常将分析焦点聚焦在星型模式中的维表上(如产品或商店,如图1所示).由于在分析中要用附加的聚合或选择的数据项以丰富维表内容,因此对于每个库表来说,需要比星型模式存储更多的数据.分析的焦点在各个维表之间不断转换,例如从客户维转换至商店维再到产品维等等,可以看作是焦点在绕着星型模式旋转,因此,本文引入“旋转模式”的概念,将OLAM的分析结构命名为旋转模式.图2显示出与图1中星型模式所对应的旋转模式的例子.旋

6、转模式的中心存储的是影响域的蕴涵,外围是各个维表的码值以及聚焦度量和其它度量,四周呈辐射状的是各个维表.在执行影响域分析时,焦点沿着不同的基本维(或类)旋转,在维和度量形成的广义数据立方体空间上执行蕴涵运算对应于图1的旋转模式的例子如图3所示,旋转模式中的库表具有五个主要部分:(1)中的库表具有五个主要部分聚焦维;(2)聚焦度量;(3)内部属性;(4)外部属性;(5)非聚焦度量.聚焦维代表当前分析焦点所在的基本维,如图2所示的客户维;聚焦度量代表用户关心的度量,如利润;内部属性是聚焦维中的属性,如客户年龄等;外部属性是非聚焦维中的属性,如

7、某客户最喜爱的产品颜色等;非聚焦度量是用于辅助决策的度量,如某客户平均一次购买的商品的数目.由此可以看出影响域中的存储模式与OLAP是不同的.2 实现OLAM机制的讨论OLAM机制具有交互的特性,而且求蕴涵函数的计算代价比较昂贵,因此在大型数据库或数据仓库中实现OLAM机制的关键是解决快速响应和有效实现的问题.必须考虑如下因素:2.1 快速响应和高性能挖掘OLAM若想获得快速响应和高的性能,会比OLAP困难,因为数据挖掘的计算代价通常比OLAP昂贵.快速响应对于交互式挖掘是致关重要的,有时为了得到快速响应甚至可以牺牲精度,因为交互式挖掘能

8、一步步引导挖掘者聚焦在搜索空间并查找越来越多重要的模式.一旦用户能限定小的搜索空间,就可调用更高级的而速度较慢的挖掘算法进行细致分析.可考虑采用逐渐精化数据挖掘质量的OLAM方法:首先在大数据

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。