欢迎来到天天文库
浏览记录
ID:30727276
大小:1.71 MB
页数:70页
时间:2019-01-02
《硕士学位论文-机器学习中若干特征选择算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、上海交通大学博士后学位论文机器学习中若干特征选择算法研究姓名:李云申请学位级别:博士后专业:计算机软件与理论指导教师:吕宝粮20070901内容摘要本报告在分析特征选择相关性质的基础上,研究并设计了多种环境下特定的特征选择算法,而这些也是目前特征选择的研究热点。本报告的主要结论是:1.利用指数熵作为特征排序准则,并结合改进的模糊特征评价指标,设计了一种新的非监督特征选择方法,效果很好。2.将维数约简中两种典型方法(特征抽取与特征选择)相结合,利用K近邻聚类,设计一类基于主成分分析的特征选择方法,将没有实际意
2、义的主成分投影到原始特征空间,选择关键的原始特征.3.在深刻分析K近邻分类器的损失函数基础上,提出新的基于K近邻分类损失一间隔的特征选择评价准则和算法,并利用能量模型进行理论分析。实验结果表明该算法能获得比其它进行K近邻规则的特征选择算法(如Simba、Mitra和Relief)更好的性能。关键词:特征选择,主成分分析,损失间隔AbstractBasedontheanalysisofcharacteristicsoffeatureselection,somespecialalgorithmsindiffer
3、entconditionsareproposedinthisreport.Themajorworksareintroducedasfullows:1.Theexponentialentropyisutilizedastherankingindex,andthefuzzyfeatureevaluationindexisimprovedtodesignanewunsupervisedfeatureselectionmethod,theexperimentalresultshaveshownitsgoodperf
4、ormance.2.Thetwomajormethodsfordimensionalityreduction,i.e.,featureextractionandfeatureselection,alecombinedtodesignafeatureselectionalgorithmbasedonPCA(PrincipalComponentAnalysis),whichcanmaptheprincipalcomponentwithoutpracticalmeaningtooriginalfeaturespa
5、ce,andidentifycriticaloriginalfeatures.3.BasedonthedeepanalysisoflossfunctionofKNNclassification,anewfeatureselectioncriterionandalgorithmbasedontheloss-marginofKNNclassificationareproposed.Atthesanletime,thetheoreticanalysisfromtheenergymodelpointsisgiven
6、.TheexperimentalresultshaveshownthealgorithmCangethigherperformancethanotheralgorithmsbasedKNNrule.such勰Simba,Mitra’SandRelief.Keywords:FeatureSelection;PrincipalComponentAnalysis;Loss—Margin上海交通大学博士后研究工作报告1.1课题的意义1绪论特征选择是统计模式识别、机器学习和数据挖掘等领域的一个热门研究课题,受剑广泛的
7、重视。.特征选择已广泛应用到文本分类、图像检索、客户关系管理、入侵检测和基因分析等疗面。因此,研究特征选择算法具有重要的学术意义和实用价值。I.2国内外研究现状简介特征选择从1e输⋯结粜来说可以分为两类:①连续的特征选择,保留所有的特征,jl址为俅个特征峨予不I·日的权值;@二值特征选抒,即从原始特征集中选择一个或几个特觚r集米降低模式的维数,日.满足一定的评价准则【I】。描述为“根据一定的计价准!J!IJ从龠仃"个特征的集合中寻找}}
8、疗’(矗9、I,人体上町以分为二三类:过滤器模型,封装器模型以及混合模J性[2J。过滤器模,键是将特征选择作为一个预处理过程,利用数据的内在特性对选取nq特祉Jc犯进},评价,独立于学习算法,而封装器模型则将后续学习算法的结果作为特征r浆评价准则的一部分。一般过滤器模型的时间复杂度较低,效果欠佳,而封装器模J诬的时问复杂度较高,效果较好。另外。混合模型试图利用卜面两种模型的优点,在不H的搜索阶段利用不同的评价准则。特征选择的
9、I,人体上町以分为二三类:过滤器模型,封装器模型以及混合模J性[2J。过滤器模,键是将特征选择作为一个预处理过程,利用数据的内在特性对选取nq特祉Jc犯进},评价,独立于学习算法,而封装器模型则将后续学习算法的结果作为特征r浆评价准则的一部分。一般过滤器模型的时间复杂度较低,效果欠佳,而封装器模J诬的时问复杂度较高,效果较好。另外。混合模型试图利用卜面两种模型的优点,在不H的搜索阶段利用不同的评价准则。特征选择的
此文档下载收益归作者所有