资源描述:
《基于遗传算法的数据挖掘技术的研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、基于遗传算法的数据挖掘技术的研究施建强,刘晓平(南京工程学院仿真部,江苏南京210013)摘要:文章首先对数据挖掘进行了概述,阐明了什么是数据挖掘,为什么要数据挖掘,如何进行数据挖掘以及数据挖掘的主要过程。接着介绍了数据挖掘中的一个重要算法——遗传算法。文章对遗传算法的产生与发展以及主要理论等进行了简要的介绍,提出了基于遗传算法的关联规则的提取方法。文章还结合作者单位的智能型学生管理系统,给出了用遗传算法进行关联规则挖掘的实例,并讨论了遗传算法所面临的问题与挑战。关键词:数据挖掘;遗传算法;关联规则Abstract:Firstly,thispapercommentsda
2、tamining,explainswhatisdatamining,whyandhowtodoit,themainprocessofdataminingandsoon1Secondly,animportantmethodgeneticalgorithms(GA)indataminingisintroduced,andtheorigin,development,maintheoryandsoonarebrieflydiscribed1Onthisbasis,thispaperbringsforwardthealgorithmsbasedonthegeneticalgori
3、thmsofassociationrules1AssociatedwiththeStudentAdministrationSystem,thispapergivesthealgorithmsandprogramofminingassociationrulebasedongeneticalgorithms1Lastly,thispaperpointsoutchallengesofdatamining,summarizestheworkofthispaperandtheworkinthefuture1Keywords:DataMining;GeneticAlgorithms
4、;associationrule味着在一些事实或观察数据的集合中寻找模式的决策支持过程。112数据挖掘使用的方法现实生活中的很多技术都可以用于数据挖掘。模式识别、人工智能等领域的技术、方法经过改进,大都可以应用于数据挖掘。常用的数据挖掘方法有决策树和遗传算法等。(1)决策树方法利用信息论中的信息增益寻找数据库中具有最大信息量的字段,建立决策树的一个结点,再根据字段的不同取值建立树的分支;在每个分支子集中重复建树的下层结点和分支的过程,即可建立决策树。数据挖掘概述1111数据挖掘定义数据挖掘是从大量的数据中抽取出潜在的、不为人知的有用信息、模式和趋势。数据挖掘的目的是提高
5、市场决策能力和检测异常模式,在过去的经验基础上预言未来趋势等。数据挖掘就是通过分析已经存在于数据库中的数据来解决问题。数据挖掘被定义成发现数据模式的过程,这个过程必须是自动化的或者(通常)是半自动化的。被挖掘出来的规则应该意味着在某些方面有优势,特别是经济方面的优势。更广义的说法是:数据挖掘意收稿日期:20021010作者简介:施建强(1971),男,工程师,在职硕士,主要研究方向为数据库系统设计和网络技术;刘晓平(1947),男,副教授,硕士,主要研究方向为光纤通信和软、硬件工程开发等。《电脑与信息技术》2003年第1期·9·(2)遗传算法这是模拟生物进化过程的算法,
6、由三个算子组成:式搜索、知识表示以及知识评价等。遗传算法2a1繁殖(选择)这是一个从旧种群(父211遗传算法遗传算法(GeneticAlgorithm,GA)是近几年发展起来的一种崭新的全局优化算法,它借用了生物遗传学的观点,通过自然选择、遗传、变异等作用机制,实现各个体适应性的提高。用遗传算法解决问题时,先要对待解决问题的模型结构和参数进行编码,一般用字符串表示,这个过程将问题符号化、离散化了。一个串行运算的遗传算法(SeguentialGeneticAlgoritm,SGA)按以下过程进行:(1)对待解决问题进行编码;本)中选出生命力强的个体,产生新种群(后代)的过
7、程。b1交叉(重组)选择两个不同个体(染色体)的部分(基因)进行交换,形成新个体。c1变异(突变)对某些个体的某些基因进行变异(1变0、0变1)。113数据挖掘处理过程目前人们对整个处理过程并没有给出非常清楚的划分,数据挖掘的一般过程如图1流程图所示:(2)随机初始化群体X(0):(x1,x2,,xn);(3)对当前群体X(t)中每个个体xi计算其适应度F(xi),适应度表示了该个体性能的好坏;(4)应用选择算子产生中间代Xr(t);(5)对Xr(t)应用其它的算子,产生新一代群体X(t+1),这些算子的目的在于扩展有限个体的覆盖面,体现