【硕士论文】基于遗传算法的分类规则挖掘研究.pdf

【硕士论文】基于遗传算法的分类规则挖掘研究.pdf

ID:32033133

大小:2.64 MB

页数:49页

时间:2019-01-30

【硕士论文】基于遗传算法的分类规则挖掘研究.pdf_第1页
【硕士论文】基于遗传算法的分类规则挖掘研究.pdf_第2页
【硕士论文】基于遗传算法的分类规则挖掘研究.pdf_第3页
【硕士论文】基于遗传算法的分类规则挖掘研究.pdf_第4页
【硕士论文】基于遗传算法的分类规则挖掘研究.pdf_第5页
资源描述:

《【硕士论文】基于遗传算法的分类规则挖掘研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、摘要数据挖掘是近年来兴起的一个新的研究领域。它涉及多学科技术的集成,包括数据库和数据仓库技术、统计学、机器学习、人工智能等,目标是从大量的数据资料中发现隐藏的有价值的信息和知识,以便为科学决策提供支持。分类规则挖掘则是通过对训练样本数据集的学习,构造分类规则的过程,是数据挖掘、知识发现的一个重要方面,其实质是希望得到准确性高、易于理解的和有趣的分类规则。论文介绍了数据挖掘的基本理论以及遗传算法的基本原理,在此基础上,重点研究了遗传算法在分类规则挖掘中的应用问题。为了克服简单遗传算法“早熟”收敛的问题,引入了“非随机

2、初始种群"和“均匀算子’’思想,提出基于非随机初始种群遗传算法的分类规则挖掘算法,并利用乳腺癌和皮肤病数据集对其进行了算法测试。根据实际应用的需要,用多目标遗传算法改进基本遗传算法在分类规则挖掘中的应用,提出基于多目标遗传算法的分类规则挖掘算法,并利用adult数据集和ZOO数据集对其进行了算法测试。试验结果表明,所用算法能消除遗传算法在分类挖掘任务中收敛于局部最优的局限性,且能快速挖掘出易于理解的分类规则,提高对知识的理解力。关键词:数据挖掘;遗传算法;分类规则;均匀算子;多目标遗传算法第一章绪论第一章绪论1.1

3、课题背景近年来,随着数据库技术和计算机网络的广泛应用和发展,人类使用先进的自动数据生成和采集工具,拥有的数据量急剧增大。在这些大量的数据背后隐藏着许多重要的信息,不同领域的人们都期待着从这些数据中得到自己想要的答案,将信息变为有用的知识,从杂乱无章的数据“矿山”中找到蕴藏的知识“金块”。但是,传统的方法很难对数据进行深层次的分析和处理,它不仅费时费力,而且效果往往很难令人满意。因此,出现了一门新的技术:数据挖掘技术11】。数据挖掘(DataMining)是计算机科学中的一个重要研究领域,其目标是从数据中抽取知识12

4、J。目前,该技术被越来越多的领域所采用并取得了一定的成效,达到了在一定程度上为人们的正确决策提供辅助的目的。分类规则是数据挖掘的主要研究内容之一,通过分析训练集数据,产生关于类别的精确描述131。这种类别描述常由分类规则组成,可以用来对未来的数据进行分类预测,有着广泛的应用前景。实际上,分类是一个两步的过程。第一步,通过分析训练集建立一个模型,描述指定的数据类集或概念集;第二步,评估模型的预测准确率,如果模型的准确率可以接受,就可以使用模型进行分类了。对于分类规则的挖掘,目前主要有以下方法:决策树方法、贝叶斯方法、

5、人工神经网络方法、遗传算法以及粗糙集方法等,不同的算法适合于不同特征的数据集。遗传算法(GeneticAlgorithms,GA)是模仿自然界生物遗传进化过程中“物竞天泽、适者生存”原理的一种全局优化随机搜索算法,是由美国J.Holland教授于1975年在其论文“自然系统和人工系统的适配”中提出的、具有应用广泛、使用简单、鲁棒性强等特点的方法【4】【51。它借用了生物遗传学的观点,通过自然选择、交叉、变异等遗传操作,一代代不断繁殖进化,最后收敛到一批最适应环境的个体上,从而求得最优分类规则剿6。。但是,传统遗传算

6、法存在着易于陷入局部最优而达不到全局最优,致使得到的分类规则概括性不强的问题。为了提高分类规则挖掘效率、准确性和易理解性,许多研究人员将简单遗传算法运用到分类规则挖掘中去,并取得了一些成果。但是,总存在“早熟”收敛和局部最优等问题。本论文提出的基于非随机初始种群遗传算法的分类规则挖掘算法能够有效地解决上述问题,提高分类规则挖掘的效率和准确性。1.2研究现状分类挖掘有多种方法,常用的有决策树归纳分类、贝叶斯分类、神经网络分类、1青岛大学硕士学位论文基于遗传算法的分类、粗糙集方法分类和模糊集方法分类等。决策树(Deci

7、sionTree)归纳是从具有类标号的训练元组学习决策树。决策树是一种类似于流程图的树结构,其中,每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,而每个叶节点存放一个类标号,树的最顶层节点为根节点。有些决策树算法只能产生二叉树,而另外一些决策树算法可以产生非二叉树。在20世纪70年代后期和80年代初期,机器学习研究者J.RossQuinlan开发了决策树算法,称作ID3(IterativeDichotomiscr,迭代的二分器)。这项工作扩展了E.B.Hunt,J.Marin和P.T.Stonc的概念

8、学习系统。1984年几位统计学家(LBrciman,J.Friedman,R.Olshen和C.Stone)出版了分类与回归树一书(CART,ClassficationandRegressionTrees),介绍了二叉决策树的产生。ID3和CART大约同时分别发明,但是从训练元组学习决策树却采用了类似的方法。这两个基础算法激发了决策树归纳研究的热潮。1993

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。