欢迎来到天天文库
浏览记录
ID:28089559
大小:65.62 KB
页数:3页
时间:2018-12-08
《基于matlab的数据挖掘技术研究【文献综述】》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、毕业论文文献综述信息与计算科学基于matlab的数据挖掘技术研究数据挖掘是用于大规模数据处理的一•种新的思维方式和技术手段,他是在现实生活屮各种数据量呈指数级不断增长,以及以数据库(database)技术为核心的信息技术逐渐成熟的背景下产生的。数裾挖掘可以帮助用户发现影藏在大型数据库中的规律和模式,它融合了人工智能(artificialintelligence)、统计(statistics)、机器学习(nachinelearning)、模式识别(patternrecognition)和数据库等多种学科的理论、方法与技术,已经在商业、企业、政府、
2、科研及体育等多种不同类型的组织机构和领域屮获得/非常广泛的应川。即使在口常生活屮,数据挖掘技术也己经潜移默化地参与到人们的生活质量改善过程中。数裾挖掘有很多种技术和计算方法,包括决策树方法(decisiontree)、人工祌经网络方法(artificialneuralmetwork,ANN)、聚类分析、模糊集合方法、遗传算法(geneticalgorithm)、模拟返火算法(simulatedannealing,SA)>进化式程序设计(evolutionaryprogramming)等。这里主要介绍一下聚类分析、遗传算法和人工神经网络算法。聚类
3、分析也称无监督学习,或无教师学习,或无指导学习,因为和分类学习相比,聚类的样本没有标记,需要由聚类学习算法来自动确定。聚类分析是研究如何在没有训练的条件下把样本划分为若干。聚类(clustering)是对物理的或抽象的样本集合分组的过程。聚类分析有很多种FI标,但都涉及把一个样本集合分组或分割为子集或簇(cluster)o从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。聚类分析主要针对的数据类型包括区间标度变量、二值变量、标称变量、序数型变量、比例标度型变量以及由这些变量类型构成的复合类型。聚类算法应具有以下几个特点:1处理不同字段
4、类型的能力;2可伸缩性;3处理高维数据的能力;4发现具有任意簇的形状的族类能力;5能够处理异常数据;6对数据顺序的不敏感性;7输入参数对领域知识的弱依赖性;8聚类结果的可解释性和实用性;9增加限制条件后的聚类分析能力。基因算法起源于对生物系统进行的计算机模拟研宂,是一种受生物进化启发,使川计算机模拟生物进化的学习方法。基因算法是模拟生物进化过程的U•算模型,是自然遗传学与U•算机科学互相结合、互相渗透而形成的新的计算方法。基因算法的最人优点是问题求解与初始条件无关,搜索最优解的能力极强。从数学的角度看,基因算法是一种概率型搜索算法:从工程学角度
5、看,它是一种自适应的迭代寻优过程。基因算法耑要完成两种数据转换,算法实施之前进行从表现型到基因型的转换,即将搜索空间屮的参数或可行解转化成遗传空间屮的染色体或个体,完成编码操作;在算法完成之后,需要进行从基因型到表现型的转换,是前者的反方向操作,作为译码操作,即将遗传空间中的染色体或个体转换成解空间中的最优解。基因算法有如下特点:1在生物系统中,进化被认为是一种成功的自适应方法,且具有很好的健壮性。2基因算法搜索的假没空间中,假设的各个部分相互作用,毎一部分对总的假设适应度的影响难以建模。3基因算法易于并进化,且可降低由使用超强•算机硬件所带来
6、的昂贵费用。4基因算法采用一种随机化的搜索老寻找扱大适应度得假设。祌经网络起源生物学和祌经生物学中有关祌经细胞计算本质的研究工作。所谓祌经网络就是一组相互连接的输入输出单元,这些单元之间的每个连接都关联一个权重。在网络学习阶段,网络通过调整权重來实现输入样本与其相应(正确)类别的对应。由于网络学主要是针对其中的连接权重进行的,因此神经网络的学习有时也称力连接学习。鉴于神经网络学习时间较长,因此它仅适用于吋间容许觉得应用场合。此外它们还需要一些关键参数,如网络结构等。这些参数通常需要经验才能有效确定。由于祌经网络的输出结果较难理解,因而受到人们的
7、冷落,也使得祌经网络较难成为理想的数据挖掘方法。神经网络的优点是对噪声数据有较好适应能力,并且对未知数据也有较好的预测分类能力。目前人们也提出了一些从神经网络中抽取出(知识)规则的算法。这些因素又将有助于数据挖掘屮的神经网络应川。当前数据挖掘应用主要集中在电信、零售、农业、网络日志、银行、电力、生物、天体、化工、医药等方而。看似广泛,实际应用还远没有普及。而据Gartner的报告也指出,数据挖掘会成为未来10年
8、Aj重要的技术之一。而数据挖掘,也已经幵始成为一门独立的专业学科。具体发展趋势和应用方向主要有:对知识发现方法的研究进一步发展,如对B
9、ayes和Boosting方法的研宄和提高;商业工具软件不断产生和完善,注重建立解决闷题的整体系统,例如Weka等软件。数据挖掘的发展应是挖掘工具在先
此文档下载收益归作者所有