数据挖掘研究及发展现状

数据挖掘研究及发展现状

ID:13796829

大小:116.30 KB

页数:7页

时间:2018-07-24

数据挖掘研究及发展现状_第1页
数据挖掘研究及发展现状_第2页
数据挖掘研究及发展现状_第3页
数据挖掘研究及发展现状_第4页
数据挖掘研究及发展现状_第5页
资源描述:

《数据挖掘研究及发展现状》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据挖掘技术的研究现状及发展方向摘要:数据挖掘技术是当前数据库和人工智能领域研究的热点。从数据挖掘的定义出发,介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点;详细总结了国内外数据挖掘的研究现状及研究热点,指出了数据挖掘的发展方向。关键词:数据挖掘;神经网络;决策树;粗糙集;模糊集;研究现状;发展方向ThepresentsituationandfuturedirectionofthedataminingtechnologyresearchAbstract:Dataminingtechnologyis hots

2、potinthefieldof currentdatabase andartificialintelligence.Fromthedefinitionofdatamining,thepaperintroducedconceptsandadvantagesanddisadvantagesofneuralnetworkalgorithm,decisiontreealgorithm,geneticalgorithm,roughsetmethod,fuzzysetmethodandassociationrulemethodofdatamining,summarized

3、domesticandinternationalresearchsituationandfocusofdataminingindetails,andpointedoutthedevelopmenttrendofdatamining.Keywords:datamining,neuralnetwork,decisiontree,roughset,fuzzyset,researchsituation,developmentdirection0引言随着信息技术的迅猛发展,许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。这些海量数

4、据中往往隐含着各种各样有用的信息,仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息,数据和信息之间的鸿沟要求系统地开发数据挖掘工具,将数据坟墓转换成知识金砖,从而达到为决策服务的目的。在这种情况下,一个新的技术——数据挖掘(DataMining,DM)技术应运而生[2]。数据挖掘正是为了迎合这种需要而产生并迅速发展起来的、用于开发信息资源的、一种新的数据处理技术。数据挖掘通常又称数据库中的知识发现(KnowledgeDiscoveryinDatabases),是一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术

5、的研究成果,其应用非常广泛。只要是有分析价值的数据库,都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点,并对国内外的研究现状及研究热点进行了详细的总结,最后指出其发展趋势及问题所在。1数据挖掘算法数据挖掘就是从大量的、有噪声的、不完全的、模糊的、随机的实际应用数据中提取有效的、新颖的、潜在有用的知识的非平凡过程[3]。所得到的信息应具有先前未知、有效和实用三个特征。数据挖掘过程如图1所示。这些数据的类型可以是结构化的、半结构化的、甚至是异构型的。发

6、现知识的方法可以是数学的、非数学的、也可以是归纳的。最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等[4]。数据选择:确定发现任务的操作对象,即目标对象;预处理:包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换等;转换:消减数据维数或降维;数据开采:确定开采的任务,如数据总结、分类、聚类、关联规则发现或序列模式发现等,并确定使用什么样的开采算法;解释和评价:数据挖掘阶段发现的模式,经过用户和机器的评价,可能存在冗余或无关的模式,这时需要剔除,使用户更容易理解和应用。十大经典算法如图2:目前,数据挖掘的算法主要包括神经网络法

7、、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等。图1数据挖掘过程图2十大经典算法1.1神经网络法神经网络法是模拟生物神经系统的结构和功能,是一种通过训练来学习的非线性预测模型,可完成分类、聚类、特征挖掘等多种数据挖掘任务。神经网络的学习方法主要表现在权值的修改上。其优点是具有抗干扰、非线性学习、联想记忆功能,对复杂情况能得到精确的预测结果;缺点是不适合处理高维变量,不能观察中间的学习过程,具有/黑箱0性,输出结果也难以解释;其次是需较长的学习时间。神经网络法主要应用于数据挖据的聚类技术中。1.2决策树法决策树是通过一系列规则对数据进行分类的过程,其表现

8、形式是类似于树形结构的流程图。最典型的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。