欢迎来到天天文库
浏览记录
ID:50400116
大小:5.81 MB
页数:55页
时间:2020-03-05
《基于SVM-RFE的特征选择方法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、犬it嫂-大摩DALIANUNIVERSITYOFTECHNOLOGY硕士字位记文MASTERALDISSERTATION基于SVM-RFE的特征选择方法研究学料专业计算机软件与理论作者姓名王君异救师惠教授指林晓2O1550_^M答辩日期_____硕士学位论文基于SVM-RFE的特征选择方法研究Theorhmasedon-ResearchofFeatureSelectionAlitBSVMRFEg作者姓名:王君学
2、科、专业:计算机软件与理论学号:21209221指导教师:林晓惠教授完成日期:2015年5月大達理工大營DalianUniversityofTechnology大连理工大学学位论文独创性声明:所呈交的学位论文作者郑重声明,是本人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外,本论文不包含其他个人或集体巳经发表的研究成果,也不包含其他巳申请学位或其他用途使用过的成果一。与我同工作的同志对本研究所做的贡献均已在论文
3、中做了明确的说明并表示了谢意。若有不实之处,本人愿意承担相关法律责任。T?-学位论文题目:ilhTH(?作者签名:zi日期:地年月/日j/难理工大学硕士学位论文摘要。随着人类科技的进步发展和先进仪器设备的应用,人类得到了大量的数据其中,高维小样本数据作为生物信息数据的特点,给数据信息处理带来了新的挑战。为了从海量数据中提取有价值的信息一,数据挖掘技术应运而生。数据挖掘是个广义的定义,吸纳了诸如统计学一、机器学习、模式识别等技术。作为数据挖掘技术之的特征选择技
4、术,被广泛应用于生物数据处理等各个领域。特征选择技术旨在去除噪音、冗余特征,挑选问题相关及具有良好区分类别能力的“”一特征,达到去伪存真的目的。虽然会丢失些特征的信息,但却使被选择的特征更一能代表问题的本质-。SVMRFE是种性能良好,泛化能力强的特征选择方法,它是SVM与后项搜索策略的结合。本文研究了RFE的后向搜索过程以求改进。在每次迭代删除过程中,使用模拟退火策略,,结合皮尔森相关系数作为度量标准重新评估当前被删除的特征子集与当前剩余特征子集之间的关系,试图找回不相关的、非
5、冗余特征,使其有一。定几率重新加回当前特征子集。越早被删除的特征,被重新考察的机会越大另外,“”“”在最优特征子集搜索过程中,在当前特征子集与最优特征子集准确率持平时,使用互信息分别重新评价两者与类标间的关系,选择关系大的特征子集作为当前搜索到“”的最优特征子集。随着分析技术的发展,基因、蛋白等生物数据维数巨增,其中既存在噪音和不含问题相关信息的无关变量,也存在相互关联的特征,共同表征复杂的生命现象。因此在处理高维生物信息样本时,去除问题无关和冗佘特征,选择区分反映不同类别的生物样
6、本的特征,寻找相互关联的特征,有助于排除噪音干扰,反映问题的实质。变量重叠度可以处理特征在各类样本上分布重叠的问题,去除噪音变量和无关变量。变量关系得分考察变量之间的相互作用,。本文考虑上述因素发掘变量之间相互关联,使用变量(特征)重叠度、变量关系得分,结合特征在超平面上的SVM权重,共同形成特征的综合评价、得分,有助于确定反映不同种类疾病药物疗效等的标志信息。实验结果表明,基于相关性度量选择的特征子集,多角度综合评价特征得分的方法都改善了特征选择性能。.-关键词:SVMRF
7、ETSP重叠度;模拟退火;相关性;;--I基于SVM-RFE的特征选择方法研究TheResearchnrmn-ofFeatureSelectioAlgoithBasedoSVMRFEAbstractAlongwiththeadvancementofsciencetechnoloandthealicationofadvanceddevicegypp,thehuedatahasbeeneneratedeverda.Hihdimens
8、ioninfeatureandsmallsizeinsamleg,gyygpisthecharacteristicofbiologicdata,andbringsthenewchallengetomankindforprocessingIttttinformation.nordertoextracthevaluableinformai
此文档下载收益归作者所有