资源描述:
《【数据库系统课件】从olap、数据挖掘到olam》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、从OLAP、数据挖掘到OLAM OLAP(联机分析处理)与DM(数据挖掘)都是数据库(数据仓库)的分析工具,在实际应用中各有侧重。前者是验证型的,后者是挖掘型的。前者建立在多维视图的基础之上,强调执行效率和对用户命令的及时响应,而且其直接数据源一般是数据仓库;后者建立在各种数据源的基础上,重在发现隐藏在数据深层次的对人们有用的模式(Patterns),一般并不过多考虑执行效率和响应速度。OLAM——OnLineAnalyticalMining是二者相结合的产物,又称为OLAPMining,目前是学术界研究的一大热点。本文在简单介绍OLAP和数据挖掘的基础上
2、,重点讨论OLAM的发展动力、体系结构及发展前景。OLAP与数据挖掘 OLAP主要有两个特点,一是在线性(On-Line),体现为对用户请求的快速响应和交互式操作,它的实现是由Client/Server这种体系结构来完成的;二是多维分析(Multi_Analysis),这也是OLAP技术的核心所在。 目前,针对OLAP技术的研究领域相当活跃,对OLAP的理解也不断深入。有人提出了OLAP的更为简洁的定义,如NigelPendse提出的FASMI(FastAnalysisOfSharedMultidimensionalInformation)。他将OLAP
3、所满足的特点用五个词来描述:Fast:对用户请求的快速响应;Analysis:可以应用多种统计分析工具、算法对数据进行分析;Shared:多个用户同时存取数据时,保证系统的安全性;Multidimensional:体现了OLAP应用多维的实质;Information:指应用所需的数据及其导出信息。 DM(DataMining),或者说KDD,是从大量原始数据中抽取模式的一个处理过程,抽取出来的模式就是所谓的知识,必须具备可信、新颖、有效和易于理解这四个特点。OLAM——OLAPMining OLAP+数据挖掘=OLAM从以上的分析中我们可以发现,OLAP
4、和DM虽然都是数据库(数据仓库)的分析工具,但其应用范围和侧重点是不同的。 OLAP的在线性体现在与用户的交互和快速响应,多维性则体现在它建立在多维视图的基础上。用户积极参与分析过程,动态地提出分析要求、选择分析算法,对数据进行由浅及深的分析。 DM与OLAP不同,主要体现在它分析数据的深入和分析过程的自动化,自动化是说,其分析过程不需要用户的参与,这是它的优点,也正是它的不足,因为在实际中,用户也希望参与到挖掘中来,如只想对数据的某一子集进行挖掘,以及对不同抽取、集成水平的数据进行挖掘,还有想根据自己的需要动态选择挖掘算法等等。 由此可见,OLA
5、P与DM各有所长,如果能将二者结合起来,发展一种建立在OLAP和数据仓库基础上的新的挖掘技术,将更能适应实际的需要。而OLAM(OnlineAnalyticalMining或OLAPMining),正是这种结合的产物。 发展OLAM的原始驱动力有以下几点:(1)DataMining工具需要的数据是一些经过净化、集成处理的数据,通常这种处理过程也是昂贵的;而DW(DataWarehouse,数据仓库)作为OLAP的数据源,存储的就是这样的数据。它能为OLAP提供数据,当然也可以为DM提供数据; (2)DW是一项崭新的技术,很多人在研究它。围绕着它有许多工具或是
6、体系结构。而DM作为数据分析工具的一种,不是孤立的,也必然要与其他的工具发生联系。因此,考虑到如何最大限度地利用这些现成的工具,也是OLAM发展之初所关心的问题; (3)成功的数据挖掘需要对数据进行钻探性(exporatory)分析,比如,挖掘所需的数据可能只是一部分、一定范围的数据。因此,对多维数据模型的切片、切块、下钻等操作,同样可以应用于DM的过程中。也就是说,可以将DM建立在多维模型(或说超级立方体)的基础之上。 (4)用户的参与对DM的重要性,动态地提出挖掘要求、选择挖掘算法。故可以将OLAP的Client/Server结构应用于DM中来。 OLAM
7、的体系结构 OLAM的挖掘分析处理是建立在超级立方体的基础之上的,而且,在实际应用中,尽管OLAM的多维计算可能需要更多的维数和更强大的访问工具,但我们可以断定,用于OLAP的立方体和用于OLAM的立方体之间并没有本质的区别。因此,我们可以将OLAM的结构图与OLAP画在一起。 我们可以看到,OLAM服务器通过用户图形接口接收用户的分析指令,在元数据的指导下,对超级立方体作一定的操作,然后将挖掘分析结果展现给用户,这个过程是动态的。多维数据视图(超立方体)是OLAM的基础,多维视图的组织方式对于系统的执行效率和响应速度起着至关重要的作用。根据多维数据实际
8、存在形式的不同,有两种组织方式: △基