欢迎来到天天文库
浏览记录
ID:13796829
大小:116.30 KB
页数:7页
时间:2018-07-24
《数据挖掘研究及发展现状》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、数据挖掘技术的研究现状及发展方向摘要:数据挖掘技术是当前数据库和人工智能领域研究的热点。从数据挖掘的定义出发,介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点;详细总结了国内外数据挖掘的研究现状及研究热点,指出了数据挖掘的发展方向。关键词:数据挖掘;神经网络;决策树;粗糙集;模糊集;研究现状;发展方向ThepresentsituationandfuturedirectionofthedataminingtechnologyresearchAbstract:Dataminingtechnologyis hots
2、potinthefieldof currentdatabase andartificialintelligence.Fromthedefinitionofdatamining,thepaperintroducedconceptsandadvantagesanddisadvantagesofneuralnetworkalgorithm,decisiontreealgorithm,geneticalgorithm,roughsetmethod,fuzzysetmethodandassociationrulemethodofdatamining,summarized
3、domesticandinternationalresearchsituationandfocusofdataminingindetails,andpointedoutthedevelopmenttrendofdatamining.Keywords:datamining,neuralnetwork,decisiontree,roughset,fuzzyset,researchsituation,developmentdirection0引言随着信息技术的迅猛发展,许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。这些海量数
4、据中往往隐含着各种各样有用的信息,仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息,数据和信息之间的鸿沟要求系统地开发数据挖掘工具,将数据坟墓转换成知识金砖,从而达到为决策服务的目的。在这种情况下,一个新的技术——数据挖掘(DataMining,DM)技术应运而生[2]。数据挖掘正是为了迎合这种需要而产生并迅速发展起来的、用于开发信息资源的、一种新的数据处理技术。数据挖掘通常又称数据库中的知识发现(KnowledgeDiscoveryinDatabases),是一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术
5、的研究成果,其应用非常广泛。只要是有分析价值的数据库,都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点,并对国内外的研究现状及研究热点进行了详细的总结,最后指出其发展趋势及问题所在。1数据挖掘算法数据挖掘就是从大量的、有噪声的、不完全的、模糊的、随机的实际应用数据中提取有效的、新颖的、潜在有用的知识的非平凡过程[3]。所得到的信息应具有先前未知、有效和实用三个特征。数据挖掘过程如图1所示。这些数据的类型可以是结构化的、半结构化的、甚至是异构型的。发
6、现知识的方法可以是数学的、非数学的、也可以是归纳的。最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等[4]。数据选择:确定发现任务的操作对象,即目标对象;预处理:包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换等;转换:消减数据维数或降维;数据开采:确定开采的任务,如数据总结、分类、聚类、关联规则发现或序列模式发现等,并确定使用什么样的开采算法;解释和评价:数据挖掘阶段发现的模式,经过用户和机器的评价,可能存在冗余或无关的模式,这时需要剔除,使用户更容易理解和应用。十大经典算法如图2:目前,数据挖掘的算法主要包括神经网络法
7、、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等。图1数据挖掘过程图2十大经典算法1.1神经网络法神经网络法是模拟生物神经系统的结构和功能,是一种通过训练来学习的非线性预测模型,可完成分类、聚类、特征挖掘等多种数据挖掘任务。神经网络的学习方法主要表现在权值的修改上。其优点是具有抗干扰、非线性学习、联想记忆功能,对复杂情况能得到精确的预测结果;缺点是不适合处理高维变量,不能观察中间的学习过程,具有/黑箱0性,输出结果也难以解释;其次是需较长的学习时间。神经网络法主要应用于数据挖据的聚类技术中。1.2决策树法决策树是通过一系列规则对数据进行分类的过程,其表现
8、形式是类似于树形结构的流程图。最典型的
此文档下载收益归作者所有