资源描述:
《烟叶香气风格分类中的特征选择算法研究.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、烟叶香气风格分类中的特征选择算法研究烟叶香气风格分类中的特征选择算法研究工程技术计算机光盘软件与应用ComputerCDSoftwareandApplications2010年第l4期烟叶香气风格分类中的特征选择算法研究刘国强,贺英,王伟(1.中国海洋大学,山东青岛266071;2.青岛大学,山东青岛266071)摘要:烟叶香气风格分类是利用烟叶外观质量,理化成分判定其香型,香气质量的类别.为了提高分类能力,通过特征选择发现最佳属性集是一种有效的方法.本文对比研究了信息增益率(GainRatio),RehefF,CFS,Wra
2、pper四种特征选择方法改善烟叶香气分类器性能的差异.实验结果表明:基于遗传算法的Wrapper方法优于其他三种方法,所得最佳属性集的特征维数低,而且使分类精确率大大提高.关键词:特征选择;分类;信息增益率;RelietF;CFS中图分类号:TP301.6文献标识码:A文章编号:1007—9599(2010)14—0036—02TheFeatureSelectionAlgorithmResearchontheTobaccoLeafAromaStyleClassificationLiuGuoqiang',HeYing2,Wang
3、Wei'f1.ChinaOceanUniversity,Qingdao266071,China;2.QingdaoUniversity,Qingdao266071,China)Abstract:Theclassificationofthetobaccoaromaflavorisevaluatedaccordingtothetobaccophysicalandchemicalcompositions.InordertOimprovetheclassificationperformance,itisaneffectivemetho
4、dthatfmdthebestfeaturesetbasedonfeatureselection.Thediff-erenceoftheclassificationperformanceoftobaccoaromamodelisfoundbycomparingfourfeatureselectionmethods.suchasGain—Ratio.ReliefF,CFSandWrappermethods.TheexperimentresultshaveshownthattheWrappermethodbasedonthegen
5、eticalgori—thmiSsuperiortootherthreemethods.andthecharacterdimensioniSthelowest,SOitcangreatlyimprovedtheclassificationaccuracy.Keywords:Featureselecti0n:Classificati0n:InformationGainRatio;ReliefF;CFS一,引言烟叶的香气风格是人对烟叶的一种感官评价,是受烟叶特定的生态条件,栽培技术,遗传因素等因素的影响.近年来,不少学者利用统计分
6、析,机器学习技术建立烟叶感官质量评价模型11,2]试图利用计算机建立一种快速评价烟叶香气风格的手段,有.助于实现卷烟配方数字化设计.由于建立分类器的输入属性维数较多,其中存在一部分无关特征或冗余特征,导致分类器的精度和时间效率难以提高.一些学者试图通过改进一些分类算法来改善分类器性能,但效果并不明显.特征选择是机器学习领域的热点研究问题之一特征选择是从原始特征集中按照评估标准选择满足最优的特征子集"J.目前特征选择已在文本分类,数据挖掘,基因工程,计算机视觉,信息检索等领域中得到了广泛应用研究.本文研究了四种典型的特征选择算法
7、:ReliefF,信息增益率(GainRatio),相关度量(CFS),Wrapper的基本原理,以及对分类器性能的改善能力,并应用于烟叶香气风格分类问题.二,特征选择特征选择主要有四个步骤,首先按照一定的搜索策略产生候选特征子集,再通过某个评价函数评估特征子集的优劣,然后根据预先指定的特征数目等条件决定特征选择算法什么时候停止,最后验证最终所选的特征子集的有效性.Dash和Lju将特征选择算法主要分为三类:Filter算法族,Wrapper算法族以及混合算法J.下面针对典型的特征选择算法简单介绍.(一)RiliefF算法Re
8、lief算法是由Kira提出的一种特征权重算法j.Kononenko提出了一种改进的ReliefF算法,它能处理多类问题.对属性的数据类型没有要求,是一种比较有效的特征选择算法I6】.算法的主要步骤如下:1.从训练集D中随机选择一个样本R;2.从和R同类的样本集中找出R的k个