基于遗传算法的分类器设计

基于遗传算法的分类器设计

ID:3566716

大小:207.51 KB

页数:25页

时间:2017-11-22

基于遗传算法的分类器设计_第1页
基于遗传算法的分类器设计_第2页
基于遗传算法的分类器设计_第3页
基于遗传算法的分类器设计_第4页
基于遗传算法的分类器设计_第5页
资源描述:

《基于遗传算法的分类器设计》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于遗传算法的分类器设计冯利美E-mail:fenglimei1981@126.com主要内容目标概念的表示搜索空间的表示遗传操作适应度函数系统地执行过程实验结果参考文献用遗传算法做分类问题,就是找到一组能很好拟合训练样例的IF-THEN规则(目标概念)。学习过程可看作一个搜索过程,就是在假设空间中搜索目标概念。目标概念的表示通常有两种:Michigan方法一条染色体表示一条规则,种群中的各条规则互相竞争。整个种群表示一个目标概念。Pittsburgh方法每条染色体是由一组定长的规则组成,代表一个侯选概念。返回目标概念的表示搜索空间的表示一这里的搜索空间,就是侯选假设空间,遗传算法

2、中的假设常被表示成二进制位串,编码方式确定了,假设空间也就相应定了.把if-then规则编码成位串首先使用位串描述单个属性的值约束.比如属性Outlook,取值有三个:Sunny、Overcast、Rain.使用一个长度为3的位串,每位对应一个可能值,若某位为1,表示这个属性可以取对应的值多个属性约束的合取表示为各个属性对应位串的连接整个规则表示为规则前件和后件位串的连接搜索空间的表示二比如一条规则:If(Outlook=Sunny)and(Temperature=Hot)and(Humidity=High)and(Wind=WeakorStrong)thenPlayTennis=

3、No二进制编码形式为:100100101101返回联赛选择算子由于传统的比例算子容易发生早熟现象,而联赛选择算子的局部搜索能力比较强,所以并没有采用常用的比例选择算子公式,而采用了该算子,操作思想:从群体中任意选择一定数目的个体(称为联赛规模),其中适应度最高的个体保存到下一代,这一过程反复进行,直到保存到下一代的个体数目达到群体规模。两点交叉算子一它是基本两点交叉算子的一个扩展。为了适应编码规则集的位串长度可变性,并且限制系统以使交叉发生在位串的相似片段间,采用下面方法:在第一个双亲串上随机选取两个交叉点,它们之间划分出了一个位串片段。这两个交叉点可能取在了两条规则中。令d1表示

4、第一个交叉点到它左侧第一个规则边界的距离。d2表示第二个交叉点到它左侧第一个规则边界的距离。在第二个双亲上随机选取交叉点,要求选择的交叉点具有同样d1和d2值。例如:如果两个双亲串是:两点交叉算子二并且为第一个双亲h1选取交叉点位置是第1位和第9位,那么d1=1并且d2=3。允许选取第二个双亲交叉点的位置有<1,3>,<1,9>和<7,9>。如果恰巧选取了<1,3>,如下所示:那么结果生成的两个后代是:两点交叉算子三如此例所示,这种交叉方法中后代可以包含与双亲不同数量的规则,同时保证了按这种方式产生的位串表示良定义的(well-defined)规则集。需要说明的是,交叉算子的交叉点

5、不能落在决策属性的编码位串中,否则规则的决策属性位串中不止一个1或者全0,规则将不符合语义,成为一条无效规则。变异算子变异操作是对标准遗传算法的变异算子做了一个约束,因为决策属性比较特殊,它的位串中只能有一位是1,大于1或全0不符合语义,无法对规则做出解释,所以决策属性的位串不参与变异操作。,,返回适应度函数设计原则MDL公式描述关于参数W的自动调整MDL结合删除规则操作返回在1993年GABIL系统中,每个规则集的适应度是根据它在训练数据上的分类精度计算的。确切地讲,度量适应度的函数是:并没有考虑到规则集合的复杂度,基于这种适应度函数,最简单的提高适应度的方式就是去学习训练样例本

6、身,而不是从中学习规律,这样就会使得染色体中规则的数目程指数级增加,而规则过于特殊,泛化能力差,这不符合Occam’srazor原则。为了解决这一问题,基于MDLPrinciple,同时考虑规则集合的预测精度和复杂度。设计原则返回本问题中的假设就是染色体—用于描述目标概念的规则集,需要考虑到规则集合本身的复杂度以及没有被分对和不能给出决策的训练样例两部分,描述长度最小的染色体适应度最高。适应度函数变成了以下MDL公式的最小值:其中W是调整TL和EL的权值。MDL公式描述一MDLPrinciple在假设的复杂性和假设产生错误的数量之间进行了折中,选择两部分描述长度之和最小的假设。MD

7、L公式描述二其中na是条件属性数,是第i条规则的第j个属性的位串长度,由于规则中决策属性需要的编码长度是一样的,所以公式中只考虑了决策属性。描述一条染色体(规则集)的理论长度TL定义:其中nr是规则数(nr体现规则复杂性高占劣势),规则的表示形式都是:IF条件THEN决策。条件是若干个对属性约束的合取.因此TLi如下定义:比如一个属性的编码位串是1111100001,可以知道这个属性有10个可能的取值,3个模拟区间,则这个属性的TL大小为:MDL公式描述三其中nvj是

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。