资源描述:
《改进的遗传算法在分类规则挖掘中的应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、改进的遗传算法在分类规则挖掘中的应用摘要:与其它常用的分类方法相比,遗传算法具有较强的伸缩性和全局搜索能力.本文对分类规则进行二进制编码,并通过适应度函数来评价分类规则的有效性.文中对简单遗传算法进行了改进,并引入相似度的概念,提出基于相似度的交叉算子.首先设定一个相似度阈值,计算个体的相似度与相似度阈值比较,若大于该阈值,则执行均匀交叉操作,否则执行单点交叉操作.最后采用USI机器学习数据库屮的数据进行实验.实验结果表明改进的遗传算法挖掘出的分类规则准确率较高.关键词:分类规则;相似度;遗传算法TheApplicationof
2、ImprovedGeneticAlgorithminClassificationRuleMiningAbstractComparedtoothercommonlyusedclassification,thegeneticalgorithmissuperiorscalabilityandglobalsearchcapabilities.Inthispaper,effectivenessofclassificationrulesforbinaryencodingisevaluatedwiththefitnessfunction.Si
3、mplegeneticalgorithmhasbeenimproved,andtheconceptofsimilartyisintroduced,andthecrossoveroperatorbasedonthesimilartyisproposedinthepaper.First,wesetasimilartythresholdvalueandcalculatetheindividuafssimilarity,whichiscomparedwiththesimilaritythresholdvaluejfitisgreater
4、thanthethreshold,thentheuniformcrossoveroperatorisimplemented,orthesingle-pointcrossoverisimplemented.AtlastwedotheexperimentwiththedatainUSImachinelearningdatabase.Theresultsindicatethatimprovedgeneticalgorithmexcavatedahighaccuracyrateofclassificationrules.Keywords
5、classificationrules;similarity;geneticalgorithm0引言随着计算机技术的快速发展和企业界不断提出的新需求,数据挖掘技术应运而生.数据挖掘是指从大型数据库屮提取出人们感兴趣的知识,这些知识是隐含的、潜在的有用信息[1]・目前常用的分类规则挖掘方法有遗传算法、决策树方法、神经网络、粗糙集方法等.分类方法[2]是数据挖掘中的一个重要的研究方向.分类就是根据数据集的特点找出类别的概念描述,这个概念描述代表了这类数据的整体信息,即该类的内涵描述,并使用这种类的描述对未来的测试数据进行分类.遗传算
6、法[3]是模拟自然选择和遗传的随机搜索算法,具有应用广泛、使用简单、侔棒性强等特点,在数据挖掘任务中,我们要处理的数据非常庞大,遗传算法很适合在这种情形下使用.与其他算法相比,遗传算法能更好地处理属性间的交互效应[4].1相关介绍1.1分类规则的编码使用遗传算法进行分类规则挖掘吋,要构造规则的编码形式条分类规则可以看作是由合取范式构成的逻辑公式.规则左部的每一个合収项都对应一个特征属性,规则右部対应的是类别属性,表示满足规则左部条件的实例应属的类别.本文对分类规则采用二进制编码表示,如对某一特征属性有k中可能的取值,则用k位二进
7、制串来表示.对于类别属性,若只有两个类别,则用0和1来表示.若类别个数大于2,采用连续的二进制代码串来表示•如果连续的数据没有通过预先处理离散化,也可直接编码,如16=1000.例如:某销售部门刈•所销售产品情况进行了统计,以寻找影响部门盈利的因素.若特征属性marketingchannel的取值域为{sellinbatches,retail}products的取值域为{artwork,clothing,children'sproducts},price的取值域为{vhigh,high,midJow),类别属性profit的取值
8、域为{vhigh,high,mid,low},则如下规则可表示成的染色体二进制串为:marketingchannel(retail)products(artwork)price(high)fpro行t(high)01100010001反染色体1001001001