欢迎来到天天文库
浏览记录
ID:47664470
大小:56.87 KB
页数:8页
时间:2020-01-28
《数据挖掘研究现状与发展趋势》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、.word格式,江西理工大学数据挖掘研究现状及发展趋势摘要:从数据挖掘的定义出发,介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点;详细总结了国内外数据挖掘的研究现状及研究热点,指出了数据挖掘的发展趋势。关键词:数据挖掘;挖掘算法;神经网络;决策树;粗糙集;模糊集;研究现状;发展趋势Abstract:Fromthedefinitionofdatamining,thepaperintroducedconceptsandadvantagesanddisadvantagesofneuralnetworkalgo
2、rithm,decisiontreealgorithm,geneticalgorithm,roughsetmethod,fuzzysetmethodandassociationrulemethodofdatamining,summarizeddomesticandinternationalresearchsituationandfocusofdataminingindetails,andpointedoutthedevelopmenttrendofdatamining.Keywords:datamining,algorithmofdatamining,ne
3、uralnetwork,decisiontree,roughset,fuzzyset,researchsituation,developmenttendency1引言随着信息技术的迅猛发展,许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。这些海量数据中往往隐含着各种各样有用的信息,仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息,迫切需要能自动地、智能地将待处理的数据转化为有价值的信息,从而达到为决策服务的目的。在这种情况下,一个新的技术———数据挖掘(DataMining,DM)技术应运而生[2]。数据挖掘
4、是一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果,其应用非常广泛。只要是有分析价值的数据库,都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点,并对国内外的研究现状及研究热点进行了详细的总结,最后指出其发展趋势及问题所在。,专业.专注..word格式,2数据挖掘算法数据挖掘就是从大量的、有噪声的、不完全的、模糊的、随机的实际应用数据中提取有效的、新颖的、潜在有用的知识的非平凡过程[3]。数据
5、挖掘过程如图1所示。这些数据的类型可以是结构化的、半结构化的、甚至是异构型的。发现知识的方法可以是数学的、非数学的、也可以是归纳的。最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等[4]。图1数据挖掘过程目前,数据挖掘的算法主要包括神经网络法、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等。2.1神经网络法神经网络法是模拟生物神经系统的结构和功能,是一种通过训练来学习的非线性预测模型,可完成分类、聚类、特征挖掘等多种数据挖掘任务。神经网络的学习方法主要表现在权值的修改上。其优点是具有抗干扰、非线性学习、联想记忆功能,对复杂情况
6、能得到精确的预测结果;缺点是不适合处理高维变量,不能观察中间的学习过程,具有“黑箱”性,输出结果也难以解释;其次是需较长的学习时间。神经网络法主要应用于数据挖据的聚类技术中。2.2决策树法决策树是通过一系列规则对数据进行分类的过程,其表现形式是类似于树形结构的流程图。最典型的算法是J.R.QUINLAN于1986年提出的ID3算法[5],之后在ID3算法的基础上又提出了极其流行的C4.5算法[6]。采用决策树法的优点是决策制定的过程是可见的,不需要长时间构造过程、描述简单,易于理解,分类速度快;缺点是很难基于多个变量组合发现规则。决策树法擅长处理非数值型数
7、据,,专业.专注..word格式,而且特别适合大规模的数据处理。2.3遗传算法遗传算法是一种采用遗传结合、遗传交叉变异及自然选择等操作来生成实现规则的、基于进化理论的机器学习方法。它的基本观点是“适者生存”原理,具有隐含并行性、易于和其它模型结合等性质主要的优点是可以处理许多数据类型,同时可以并行处理各种数据,对问题的种类有很强的鲁棒性;缺点是需要的参数太多,编码困难,一般计算量比较大。遗传算法常用于优化神经元网络,解决其它技术难以解决的问题。2.4粗糙集法粗糙集法也称粗糙集理论,是一种新的处理含糊、不精确、不完备问题的数学工具,可以处理数据约简、数据相关
8、性发现、数据意义的评估等问题。其优点是算法简单,不需要关于数据的任
此文档下载收益归作者所有