资源描述:
《基于聚类的特征选择方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第12A期 2008年12月电 子 学 报ACTAELECTRONICASINICAVol.36 No.12ADec. 2008 基于聚类的特征选择方法蒋盛益,郑 琪,张倩生(广东外语外贸大学信息学院,广东广州510006) 摘 要: 本文提出了一种度量特征区分度的定义,进而提出一种基于聚类的特征选择方法CBFS.该方法时间复杂度与数据集的大小和特征个数成近似线性关系,适合于大规模数据集中的特征选择;该方法对数据类型没有限制,适用于混合类型数据.在UCI数据集上的实验结果表明,与文献中的方法相比,本文方法具有较好的性能,说明提出的特征选择方法
2、是有效和实用的.关键词: 聚类;特征区分度;特征选择中图分类号: TP391 文献标识码: A 文章编号: 037222112(2008)12A2157204Clustering2BasedFeatureSelectionJIANGSheng2yi,ZHENGQi,ZHANGQian2sheng(SchoolofInformatics,GuangdongUniversityofForeignStudies,Guangzhou,Guangdong510006,China)Abstract: Theauthorscomeupwithadefini
3、tionofmeasuringdifferentiationsbetweenfeatures,andthenputforwarda
methodofclustering2basedfeatureselection(BelowreferredtoasCBFS).Thetimecomplexityofthemethodisnearlylinearwithboththesizeofdatasetandthenumberoffeatures.Besides,themethodisapplicabletotheselectionoffeaturesinlarg
4、edataset.ItcanparticularlyhandledatawithbothNominalandContinuousFeatures.TheresultsoftheexperimentonUCIdatasetsshowthatthemethodiseffectiveandpracticable.Keywords: clustering;differentiationoffeature;featureselection1 引言征子集,该类算法通常运行效率较高而适用于大规模数据集.而封装式特征选择算法则将后续学习算法的结果 特征选择是指从一
5、组原始特征集合中选择具有代作为特征子集评价准则的一部分,根据算法生成规则的表性的特征子集,使其保留原有数据的大部分信息,即
分类精度选择特征子集,该类算法具有使得生成规则分所选择的特征子集可以像原来的全部特征一样用来正类精度高的优点,但特征选择效率低.确区分数据集中的每个数据对象.特征选择作为数据预
本文研究Filter式特征选择方法,以聚类为基本工处理的一类方法,是数据挖掘、机器学习和模式识别中
具,利用不同簇间在各个特征上的差异定义的区分度作的一个重要而棘手的问题.特征选择的研究开始于上个
为特征可分性判据,然后按可分性判据的大小进行特征世纪的六
6、十年代[1],已取得许多研究成果,有基于信息重要性排序,最后根据重要性的变化规律选取特征子熵、粗糙集、神经网络、支持向量机的各类特征选择算集.实验结果表明,相比于经典的IFN[2]、Relief[3]、ABB[4][2~8].已经证明最优特征子集的搜索是一个NP问题,法等特征选择算法,本文的算法在性能上有明显的提高.除了穷举搜索,不能保证得到最优解,因此人们致力于用启发式搜索算法寻找近似最优解.2 基于聚类的特征选择方法特征选择算法主要有两种框架,即过滤式(Filter)特211 方法描述征选择算法和封装式(Wrapper)特征选择算法.过滤式本文采
7、用文献[9]给出的一趟聚类算法作为对数据特征选择算法是将特征选择作为一个预处理过程,利用进行划分的基本方法.假设数据集D有t个不同类别的数据的内在特性对选取的特征子集进行评价,独立于学数据,每个数据有m个特征,其中有mC个分类特征和习算法,通常是选择与目标函数相关度大的特征或者特mN个数值特征,m=mC+mN.不妨设分类特征位于数值收稿日期:2008205209;修回日期:2008210201基金项目:国家自然科学基金(No.60673191);广东省高等学校自然科学研究重点项目(No.06Z012);广东外语外贸大学科研创新团队项目(No.
GW2
8、0062TA2005)158 电 子 学 报2008年特征之前,用Di(1≤i≤m)表示第i个特征取