资源描述:
《基于聚类的特征选择方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、第12A期电子学报Vol.36No.12A2008年12月ACTAELECTRONICASINICADec.2008基于聚类的特征选择方法蒋盛益,郑琪,张倩生(广东外语外贸大学信息学院,广东广州510006)摘要:本文提出了一种度量特征区分度的定义,进而提出一种基于聚类的特征选择方法CBFS.该方法时间复杂度与数据集的大小和特征个数成近似线性关系,适合于大规模数据集中的特征选择;该方法对数据类型没有限制,适用于混合类型数据.在UCI数据集上的实验结果表明,与文献中的方法相比,本文方法具有较好的性能,说明提出的特征选择方法是有效和实用的.关键词:聚类;特征区分度;特征选择中图分类号:TP391
2、文献标识码:A文章编号:037222112(2008)12A2157204Clustering2BasedFeatureSelectionJIANGSheng2yi,ZHENGQi,ZHANGQian2sheng(SchoolofInformatics,GuangdongUniversityofForeignStudies,Guangzhou,Guangdong510006,China)Abstract:Theauthorscomeupwithadefinitionofmeasuringdifferentiationsbetweenfeatures,andthenputforwardamet
3、hodofclustering2basedfeatureselection(BelowreferredtoasCBFS).Thetimecomplexityofthemethodisnearlylinearwithboththesizeofdatasetandthenumberoffeatures.Besides,themethodisapplicabletotheselectionoffeaturesinlargedataset.ItcanparticularlyhandledatawithbothNominalandContinuousFeatures.Theresultsoftheex
4、perimentonUCIdatasetsshowthatthemethodiseffectiveandpracticable.Keywords:clustering;differentiationoffeature;featureselection征子集,该类算法通常运行效率较高而适用于大规模数1引言据集.而封装式特征选择算法则将后续学习算法的结果特征选择是指从一组原始特征集合中选择具有代作为特征子集评价准则的一部分,根据算法生成规则的表性的特征子集,使其保留原有数据的大部分信息,即分类精度选择特征子集,该类算法具有使得生成规则分所选择的特征子集可以像原来的全部特征一样用来正类精度高的优点
5、,但特征选择效率低.确区分数据集中的每个数据对象.特征选择作为数据预本文研究Filter式特征选择方法,以聚类为基本工处理的一类方法,是数据挖掘、机器学习和模式识别中具,利用不同簇间在各个特征上的差异定义的区分度作的一个重要而棘手的问题.特征选择的研究开始于上个为特征可分性判据,然后按可分性判据的大小进行特征[1]世纪的六十年代,已取得许多研究成果,有基于信息重要性排序,最后根据重要性的变化规律选取特征子熵、粗糙集、神经网络、支持向量机的各类特征选择算集.实验结果表明,相比于经典的IFN[2]、Relief[3]、ABB[4][2~8]法.已经证明最优特征子集的搜索是一个NP问题,等特征选择
6、算法,本文的算法在性能上有明显的提高.除了穷举搜索,不能保证得到最优解,因此人们致力于2基于聚类的特征选择方法用启发式搜索算法寻找近似最优解.特征选择算法主要有两种框架,即过滤式(Filter)特211方法描述征选择算法和封装式(Wrapper)特征选择算法.过滤式本文采用文献[9]给出的一趟聚类算法作为对数据特征选择算法是将特征选择作为一个预处理过程,利用进行划分的基本方法.假设数据集D有t个不同类别的数据的内在特性对选取的特征子集进行评价,独立于学数据,每个数据有m个特征,其中有mC个分类特征和习算法,通常是选择与目标函数相关度大的特征或者特mN个数值特征,m=mC+mN.不妨设分类特征
7、位于数值收稿日期:2008205209;修回日期:2008210201基金项目:国家自然科学基金(No.60673191);广东省高等学校自然科学研究重点项目(No.06Z012);广东外语外贸大学科研创新团队项目(No.GW20062TA2005)158电子学报2008年特征之前,用Di(1≤i≤m)表示第i个特征取值的集合.集.算法描述如下:定义1给定簇C,a∈Di,a在C中关于Di的频Step1重复以下