资源描述:
《模糊聚类在特征选取中应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、李求实等:平衡IO和CPU的XML关键词检索125模糊聚类在特征选取中的应用刘全金1,2,赵志敏1,李颖新3(1.南京航空航天大学理学院,江苏南京210016;2.安庆师范学院物理与电气工程学院,安徽安庆246011;3.北京经纬纺机新技术有限公司机器视觉与智能研究所,北京100176)摘要:提出了一种基于模糊聚类算法的高维特征选取方法。首先,利用Bhattacharyya距离过滤样本类别无关的特征;然后,基于递归特征剔除过程,提出了基于模糊ISODATA聚类方法,以样本与聚类中心的加权距离作为可分性指标,产生候选特征子集;最后,以候选特征
2、子集分类和聚类的AUC值和正确率作为目标函数,确定最佳特征子集。将该方法用于选取5个基因表达谱数据集的特征基因,结果显示该方法所选特征具有较好的分类和聚类能力,说明了提出的特征选取方法的有效性。关键词:特征选取;模糊ISODATA;层次聚类;支持向量机;K近邻ApplicationofFuzzyClusteringAlgorithmonfeatureselectionQuanjinLiu1,2,ZhiminZhao1,Ying-XinLi3(1.CollegeofScience,NanjingUniversityofAeronauticsa
3、ndAstronautics,Nanjing,210016,China;2.DepartmentofPhysics,AnQingNormalCollege,Anqing,246011,China;3.InstituteofMachineVisionandMachineIntelligence,BeijingJingweiTextileMachineryNewTechnologyCo.,Ltd.,Beijing100176,China)Abstract:Anewfeatureselectionmethodbasedonclusteringal
4、gorithmisproposedtoselectinginformativefeatures.First,category-unrelatedfeaturesarekickedoutaccordingtoBhattacharyyadistance.Then,basedontheprocessofrecursivefeatureelimination,aweighteddistancebetweensampleandtheclustercentergeneratedbythefuzzyInteractiveSelf-OrganizingDa
5、taAlgorithm(ISODATA)isusedastheindexoffeatureforseparatingdifferentclasses.Finally,thecandidatefeaturesubsetwiththemaximumAUCvalueandaccuracyratebothinclassificationandclusteringtestsisselectedastheoptimalfeaturesubset.Theproposedfeaturesubsetselectionmethodisappliedto5gen
6、eexpressionprofiledatasetsandexperimentresultsshowthattheselectedfeatureshavegoodperformanceintermsofbothclassificationandclusteringmeasurements.Thisdemonstratesthattheproposedmethodiseffectiveforselectinginformativefeaturesfromhighdimensionaldataset.Keywords:featureselect
7、ion;fuzzyISODATA;Hierachicalclustering;Supportvectormachine;K-nearestneighbor文献标识码:A中图分类号:TP391,Q81271引言从高维数据中选出与类别相关的特征是机器学习和模式分类的重要一步,特征选取方法的优劣将影响到分类和聚类结果[1,2],选取的特征应该同时具有较强的分类和聚类能力。filter和wrapper是两种常用的高维数据集的特征选取手段[3]。Filter方法利用可分性指标评定特征的重要性,选取有效的类别特征,但这种可分性指标仅从单个特征出发,没有
8、考虑特征间的相互关系,所以选取的特征并非最优[4,5]7。wrapper方法则围绕学习算法,根据该算法执行情况选取相关的特征,这种方法能够取得比filter方法更优的结果[6,7