资源描述:
《数据挖掘研究现状及趋势》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、数据挖掘研究现状及趋势中南大学信息科学与工程学院湖南长沙410083摘要:本文以详实的资料或证据从三个方面概述了当今世界数据挖掘研究的现状和未来趋势,因而可为相关研究人员提供参考。本文论及的第一方面是概述当今世界数据挖掘研究涉及的内容、任务及应用领域:数据挖掘的研究内容就是如何从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的相关理论和技术;其主要任务有关联分析、时序模式、聚类、分类、偏差检测、预测等几项;其研究对象主要是关系数据库,并逐步进入到空间数据库,时态数据
2、库,文本数据库,多媒体数据库,环球网WEB等;数据挖掘方法是由人工智能、机器学习的方法发展而来,结合传统的统计分析方法、模糊数学方法以及科学计算可视化技术等;数据挖掘的工具和软件已广泛应用于银行金融、零售与批发、制造、保险、公共设施、政府、教育、远程通讯、软件开发、运输等领域。 本文论及的第二方面概述了数据挖掘的研究发展现状:本文列举了大量从事该项研究的知名大学、国际机构、会议、刊物、网站;同时也列举了不同时期数据挖掘软件开发的大体发展状况及趋势;以及不同数据挖掘软件在市场上的使用率情况。 本文论及的第三方面概述了当前数据挖掘的热
3、点领域及未来发展方向:就目前来看,相关的几个热点包括网站的数据挖掘、生物信息或基因的数据挖掘及其文本的数据挖掘、分布式数据挖掘、可视化的数据挖掘等;而未来研究焦点可能会集中到以下几个方面:即研究专门用于知识发现的数据挖掘语言;寻求数据挖掘过程中的可视化方法;研究在网络环境下的数据挖掘技术,实现分布式数据采掘.关键词: 关键词:数据挖掘 数据库 统计技术一、数据挖掘研究的内容、任务及应用领域:1.1数据挖掘的内容知识发现(KDD)被认为是从数据中发现有用知识的整个过程。数据挖掘(DM)被认为是KDD过程中的一个特定步骤,它用专门算
4、法从数据中抽取模式(patterns)。数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。KDD过程图可表为下图1.1。图1.1KDD过程图从图中可见,KDD过程是多个步骤相互连接起来,反复进行人机交互的过程.具体说明如下:1.学习某个应用领域:包括应用中的预先知识和目标。2.建立一个目标数据集:选择一个数据集或在多数据集的子集上聚焦。3.数据清理和预处理:去除噪声或无关数据,去除空白数据域,考虑时间顺序和数据的变化等。4.
5、数据转换:找到数据的特征进行编码,减少有效变量的数目.如年龄,10年为一级,则有10级.165.选定数据挖掘算法:决定数据挖掘的目的,用KDD过程中的准则选择某一个特定数据挖掘算法(如汇总、聚类、分类、回归等)用于搜索数据中的模式,它可以是近似的。6.数据挖掘:通过数据挖掘方法产生一个特定的感兴趣的模式或一个特定的数据集。7.解释:解释某个发现的模式,去掉多余的不切题意的模式,转换某个有用的模式为知识。8.评价知识:将这些知识放到实际系统中,查看这些知识的作用,或者证明这些知识。用预先可信的知识检查和解决知识中可能的矛盾。以上处理
6、步骤往往需要经过多次的反复,不断提高学习效果。数据挖掘(DM)是KDD中的一个最重要的步骤。有时会不加区别的使用“数据挖掘”和“知识发现”这两个词。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系型数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们对
7、数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。1.2数据挖掘的任务数据挖掘的主要任务有六项:关联分析、时序模式、聚类、分类、偏差检测、预测。关联分析:关联分析是从数据库中发现知识的一类重要方法。若两个或多个数据项的取值之间重复出现且概率很高时,它就存在某种关联,可以建立起这些数据项的关联规则。例如,买面包的顾客有90%的人还买牛
8、奶,这是一条关联规则。若商店中将面包和牛奶放在一起销售,将会提高他们的销量。在大型数据库中,这种关联规则是很多的,需要进行筛选,一般用“支持度”和“可信度”两个阈值来淘汰那些无用的关联规则。“支持度”表示该规则所代表的事例(元组)占全部事例(元组)