资源描述:
《数据仓库与数据挖掘技术论》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、滨江学院题目数据仓库与数据挖掘技术院系计算机系专业班级软件工程(动画方向)学生姓名孙玉娟学号20082358009指导教师阎雷鸣二O一一年五月二十八日【摘要】:数据仓库与数据挖掘技术是信息领域的两个热门话题,掌握这两项技术是信息社会的必然趋势。本文介绍了数据仓库与数据挖掘的基本概念、特点,数据挖掘环境,KDD的基本原理,最后介绍了基于数据仓库的数据挖掘技术,使读者对这两项技术有一个全面的了解。讨论了数据挖掘的技术算法及数据仓库与数据挖掘的应用领域。【关键词】:数据挖掘数据仓库操作数据库KDD一、引言数据
2、仓库技术的出现是由于决策支持系统发展的需要。它的提出是以关系数据库、并行处理、分布式技术以及INTERNET的飞速发展为基础,它是解决如何利用分散的异构环境数据源,及时得到准确的信息,解决信息技术(IT)在发展中一方面拥有大量数据,另一方面有用信息却很贫乏这种不正常现象的综合解决方案。数据仓库的建立并不是要替代数据库,它是建立在一个比较全面和完善的信息应用基础之上的,用于支持高层决策的分析。而数据挖掘是为寻找未知的模式或趋势在数据仓库的细节数据中进行搜索的过程。它并不是让查询语言去找某些特定的事实,而是
3、查看所有的事实,寻找具有某种含义深长的模式或关系来进行决策。二、数据挖掘2.1 数据挖掘概念数据挖掘(DataMinin一种公认的定义是w.J.Frawle)·和G.Piatetsky-Shapiro等人提出的f’1:就是从大型数据库的数据中提取人们感兴趣的知识。这些知是隐含的、事先朱知的、但潜在有用的信息.提取的知识可以表示为概念4、观察数据的集合中寻找模式的决策支持过程。它主要有五类功能:预测趋势和行为、关联分析、聚类分析、概念描述和偏差检测131。粗略的,可以将数据挖掘过程分为数据准备、数据挖掘和知识的解释与评估三个步骤。数据准备包括数据集成、数据选择和数据预处理。在数据挖掘(数据开采)阶段,包括确定开采的任务,决定采用挖掘的算法和具体的数据挖掘操作。在知识的解释和评估阶段,是根据数据挖掘阶段挖掘出来的模式.经过用户或机器的评价.发现存在的冗余或无关的模式并将其剔除:判断是否满足用户要求,如果不满足用户要求,需要重新挖掘,若满足
5、要求,将其表达出来,反馈给用户。2.2 KDD的基本原理在KDD96国际会议上,根据知识发现研究领域知名学者的阐述,一个被一致接受的KDD定义表述如下:“对数据库中蕴涵的、未知的、有潜在应用价值的、非平凡的模式的提取”。其中,“模式”是指用高级语言表示的表达一定逻辑含义的信息,通常指数据库中数据之间的逻辑关系(也即要发现的知识)。而“非平凡”则是指在KDD中,知识的发现过程应具有某种不断定性和一定的自由度。对于能够以确定的计算过程提取的模式(如在人事数据库中,已知职工的工资,求出职工总工资或平均工资等问
6、题),一般称之为平凡知识,而平凡知识不是KDD的目标。一般地,KDD的基本原理可用如下的处理过程加以说明[2,3]:(1)首先熟悉应用领域的数据、背景知识,明确所要完成的KDD/DM任务性质;(2)数据选择根据用户要求,从数据库中提取与KDD相关的数据,KDD将主要从这些数据中进行数据提取(3)数据预处理与转换从与KDD相关的数据集合中除去明显错误的数据和冗余的数据,进一步精减所选数据中的有用部分,并将数据转换成为有效形式,以使数据开采更有效;(4)数据挖掘(DM)根据KDD发现任务的要求,选择合适的数
7、据开采算法(包括选取合适的模型和参数),在数据库中寻求感兴趣的模型,并用一定的方法表达成某种易于理解的形式;(5)模式解释对发现的模式进行解释和评估,必要时需要返回前面处理中的某些步骤以反复提取;(6)知识评价将发现的知识以用户能理解的方式提供给用户,并试用之。从以上的处理步骤来看,整个发现过程不是简单的线性流程,步骤之间包含了循环和反复。上述众多处理环节实际上也可简化为:KDD=数据预处理十DM十解释评价。由于预处理和解释评价研究较为成熟,目前KDD的研究和实现难点都集中在数据挖掘上。作为KDD的一个
8、特定而关键步骤,数据挖掘是最为重要的。正是因为如此,人们在很多场合往往不加区分地使用KDD和DM这两个术语[2,4]。2·3数据挖掘环境数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的,有效的可实用的信息,并使用这些信息做出决策或丰富知识。数据挖掘环境可示意如图2.1:下图描述了数据挖掘的基本过程和主要步骤在数据挖掘中被研究的业务对象是整个过程的基础,它驱动了整个数据挖掘过程,也是检验最后结果和指引分析人员完成数据挖掘的依据和