数据挖掘研究现状与发展趋势

数据挖掘研究现状与发展趋势

ID:47664470

大小:56.87 KB

页数:8页

时间:2020-01-28

数据挖掘研究现状与发展趋势_第1页
数据挖掘研究现状与发展趋势_第2页
数据挖掘研究现状与发展趋势_第3页
数据挖掘研究现状与发展趋势_第4页
数据挖掘研究现状与发展趋势_第5页
资源描述:

《数据挖掘研究现状与发展趋势》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、.word格式,江西理工大学数据挖掘研究现状及发展趋势摘要:从数据挖掘的定义出发,介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点;详细总结了国内外数据挖掘的研究现状及研究热点,指出了数据挖掘的发展趋势。关键词:数据挖掘;挖掘算法;神经网络;决策树;粗糙集;模糊集;研究现状;发展趋势Abstract:Fromthedefinitionofdatamining,thepaperintroducedconceptsandadvantagesanddisadvantagesofneuralnetworkalgo

2、rithm,decisiontreealgorithm,geneticalgorithm,roughsetmethod,fuzzysetmethodandassociationrulemethodofdatamining,summarizeddomesticandinternationalresearchsituationandfocusofdataminingindetails,andpointedoutthedevelopmenttrendofdatamining.Keywords:datamining,algorithmofdatamining,ne

3、uralnetwork,decisiontree,roughset,fuzzyset,researchsituation,developmenttendency1引言随着信息技术的迅猛发展,许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。这些海量数据中往往隐含着各种各样有用的信息,仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息,迫切需要能自动地、智能地将待处理的数据转化为有价值的信息,从而达到为决策服务的目的。在这种情况下,一个新的技术———数据挖掘(DataMining,DM)技术应运而生[2]。数据挖掘

4、是一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果,其应用非常广泛。只要是有分析价值的数据库,都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点,并对国内外的研究现状及研究热点进行了详细的总结,最后指出其发展趋势及问题所在。,专业.专注..word格式,2数据挖掘算法数据挖掘就是从大量的、有噪声的、不完全的、模糊的、随机的实际应用数据中提取有效的、新颖的、潜在有用的知识的非平凡过程[3]。数据

5、挖掘过程如图1所示。这些数据的类型可以是结构化的、半结构化的、甚至是异构型的。发现知识的方法可以是数学的、非数学的、也可以是归纳的。最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等[4]。图1数据挖掘过程目前,数据挖掘的算法主要包括神经网络法、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等。2.1神经网络法神经网络法是模拟生物神经系统的结构和功能,是一种通过训练来学习的非线性预测模型,可完成分类、聚类、特征挖掘等多种数据挖掘任务。神经网络的学习方法主要表现在权值的修改上。其优点是具有抗干扰、非线性学习、联想记忆功能,对复杂情况

6、能得到精确的预测结果;缺点是不适合处理高维变量,不能观察中间的学习过程,具有“黑箱”性,输出结果也难以解释;其次是需较长的学习时间。神经网络法主要应用于数据挖据的聚类技术中。2.2决策树法决策树是通过一系列规则对数据进行分类的过程,其表现形式是类似于树形结构的流程图。最典型的算法是J.R.QUINLAN于1986年提出的ID3算法[5],之后在ID3算法的基础上又提出了极其流行的C4.5算法[6]。采用决策树法的优点是决策制定的过程是可见的,不需要长时间构造过程、描述简单,易于理解,分类速度快;缺点是很难基于多个变量组合发现规则。决策树法擅长处理非数值型数

7、据,,专业.专注..word格式,而且特别适合大规模的数据处理。2.3遗传算法遗传算法是一种采用遗传结合、遗传交叉变异及自然选择等操作来生成实现规则的、基于进化理论的机器学习方法。它的基本观点是“适者生存”原理,具有隐含并行性、易于和其它模型结合等性质主要的优点是可以处理许多数据类型,同时可以并行处理各种数据,对问题的种类有很强的鲁棒性;缺点是需要的参数太多,编码困难,一般计算量比较大。遗传算法常用于优化神经元网络,解决其它技术难以解决的问题。2.4粗糙集法粗糙集法也称粗糙集理论,是一种新的处理含糊、不精确、不完备问题的数学工具,可以处理数据约简、数据相关

8、性发现、数据意义的评估等问题。其优点是算法简单,不需要关于数据的任

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。