资源描述:
《基于Parzen窗条件互信息计算的特征选择算法.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、基于Parzen窗条件互信息计算的特征选择方法贺邓超,张宏军,郝文宁,张睿(解放军理工大学指挥信息系统学院仿真与数据中心,南京210007)摘要:为解决连续值特征条件互信息计算困难和对多值特征偏倚的问题,本文提出了一种基于Parzen窗条件互信息计算的特征选择方法。该方法通过Parzen窗估计出连续值特征的概率密度函数,进而方便准确地计算出条件互信息;同时在评价准则中引入特征离散度作为惩罚因子,克服了条件互信息计算对于多值特征的偏倚,实现了对连续型数据的特征选择。实验证明,该方法能够达到与现有方法相当甚至更好的
2、效果,是一种有效的特征选择方法。关键词:特征选择;Parzen窗;条件互信息;特征离散度中图分类号:TP391.4 文献标志码:A文章编号:FeatureselectionbasedonconditionalmutualinformationcomputationwithParzenwindowHEDeng-chao1,ZHANGHong-jun1,HAOWen-ning1,ZHANGRui1(CenterofSimulation&Data,InstituteofcommandinformationSyst
3、em,PLAUniversityOfScienceTechnology,Nanjing,210007,China)Abstract:Inordertosolvetheproblemsofcalculatingtheconditionalmutualinformationofcontinuousvariablesandbiasofmulti-valuefeatures,anovelfeatureselectionmethodisproposed.Themethodisbasedoncomputingconditi
4、onalmutualinformationwithParzenwindowcalledPCMIFS,whichadoptParzenwindowtoestimatetheprobabilitydensityfunctionandcomputeconditionalmutualinformationofcontinuousfeature.Andintroduceapenaltyfactor,featuredispersion,toovercomethebiasofmulti-valuefeatures.Theex
5、perimentresultsshowthatcomparingseveralexistingmethod,PCMIFScanattainbetterorcomparableperformance,andisaneffectivefeatureselectionmethod.Keywords:FeatureSelection,ParzenWindow,ConditionalMutualInformation,FeatureDispersion0引言随着数据量的不断增大,特征选择已成为数据预处理特别是高维数据预处
6、理过程中不可缺少的部分(例如文本分类、图像检索、生物信息处理等)。特征选择即从一组数量为D的特征中选择出数量为d(D>d)的一组最优特征[1],已达到用较少的特征对数据进行有效的表达和减少计算开销的目的,其关键在于如何在选择有用的特征的同时去除冗余或与类标签不相关的特征。目前常用的特征选择方法可以分为嵌入(Embeded)法、封装(Wrapper)法[2]、和过滤(Filter)法[3]。Embeded法特征选择被整合进某一特定学习算法的训练过程中,特征选择与训练过程同步进行。Wrapper法是以某一具体归纳学
7、习算法的性能作为其评价和选择特征的标准。此类算法的不足在于继承了所使用的归纳学习算法对特征的偏置,计算复杂度比较高。Filter法是基于某一具体的评价准则来选择特征,其过程独立于具体算法。大量实验表明Filer方法较Wrapper方法效率更高,更适合于大规模维度空间的特征选择任务。常用的Filter法的评价准则有卡方检验(χ2-test)[4]、互信息[5,6]、联合互信息亏损[7]等。基于信息论的评价准则能够很好的反映两个特征之间的相关性,因此常作为特征选择的评价准则。文献[8]采用了条件互信息作为特征的评价
8、准则,不仅考虑了特征与类标签之间的相关性,同时考虑到了特征之间的冗余性。这种方法在处理离散值特征时效果良好,但是对于连续值特征,需要将其进行离散化后再进行计算,不同的数据离散化区间划分会导致不同程度的原始数据信息丢失;另一种解决方案是假设数据服从某种概率密度分布,并在此条件下进行参数估计,然而在实际问题中,假设的概率密度分布很少符合实际情况[9]。此外,基于信息论的相关性计算存在着偏向