欢迎来到天天文库
浏览记录
ID:33361387
大小:3.84 MB
页数:141页
时间:2019-02-25
《模式分类中的特征选取问题研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、摘要模式分类中的特征选取问题研究随着计算机技术和信息技术的飞速发展,人们收集的各种数据信息以完全超出人类处理能力的速度急剧增长。数据规模越来越大,数据构成也越来越复杂,使得现有的数据分析工具如数据挖掘、机器学习、模式分类等往往难以直接应用,迫切需要一种有效的数学工具对日益庞大的数据集进行清理和降维。特征选取的目标,就是在保持数据表达基本不变的侍况下,通过去除对于目标任务不相关或意义不大的特征信息,使数据规模显著减少,同时又最大程度地保留与目标任务相关的数据信息,为各种数据分析工具提供高效、紧凑的数据。近年来,特征选取日益受到人们广泛的关注,
2、成为目煎研究的热点闽题之一。本文在模式分类的背景下,对特征选取的一些问题进行了深入研究,主要工作如下。.I)粗糙数据模型是Kowalczyk提出的一种广义粳糙集模型,具有结构简单、实用性强的优点,但也存在建模效率低、分类精度和噪声数据处理能力严重依赖于数据空间的栅格划分的弱点。为此,文中引入了模糊自适应聚类技术,将数据空问的硬划分转化为与模式类相遥应的模糊划分,提出了一种基于粗糙集理论的规则模式分类器模型——模糊粗糙数据模型。该模型能够用较少数目的模糊类反映出数据集中具有超椭球、超平面或超线型的特征模式类,有效地提高了分类器模型的建模效率和
3、数据概括能力。不}司数据集的实验测试结果验证了该模型的优良性能。2)互信息是特征选取问题中一类非常有价值的特征评价准则,但却存在高维空问下难以计算的困难。针对这一问题,论文首先对各种特征评价准则进行了系统研究,在此基础上,推导出了高维特征空间在信息均匀分布条件下。候选特征Z与输出类别C之间在给定已选特征子集s情况下的条件互信息,(c;Zls)的近似估计公式。利用该公式,可以在特征信息不严重背离均匀分布的情况下对特征进行有效地评价。基于该估计公式,提出了一种基于己选特征子集二阶互信息的特征选取FilterI,≯完互声謦博士后研究工作报告算法(
4、sOM匝S),该方法能够自适应地估计出候选特征与已选特征之间关于输出类别的冗余信息,不再象Battiti的MIFS方法及Kwak和Chow的MIFS-U方法那样,需要预先人为设定与特征冗余程度有关的参数B的数值,从而大大改进了算法的性能。。另外,针对特征信息任意分布的情况,文中给出了一种基于互信息的构造性特征评价准则;基于该评价准则,进一步提出了特征信息任意分布条件下的构造性特征选取方法(MICC)。通过在不同的解析数据集和基准数据集上的测试与比较,实验结果表明,与Bat虹ti的MIFS及Kwak和Chow的MIFS-U等特征选取方法相比,
5、本文所提方法SOMmS和MICC能够提供更加准确、有效的特征评价准则,具有更强的适应性和更好的预测性能。3)在输入特征之间存在复杂关联关系的情况下,使用单一评价准则的filter方法由于存在“嵌套”效应等弱点,往往难以发现最优特征子集。针对这一问题.文中提出了一种基于互信息、以filter为局部搜索方式、以混合遗传算法为优化组织形式的特征选取Wrapper方法。该方法将遗传算法的全局搜索能力强、filmr方法的计算速度快和wrapper方法的预测精度高等三方面的优势,以互信息为纽带完美地结合在一起,该使得该方法具有很强的最优特征子集搜索能力
6、。不同类型的数据实验研究表明了该方法不论在分类预测精度上,还是在适用性上都具有很好的性能。4)研究了特征选取的应用问题,分析了影响特征选取算法选用的因素及其相互关系,对合理选用特征选取算法具有一定的参考意义。特征选取是一个成果丰硕的研究领域,也是一个面临着新的挑战和机会的领域,更多更复杂的问题有待于我们去研究、去解决。关键词:模式分类,特征选取,机器学习,数据挖掘,支持向量机nAbstractResearchonFeatureSelectioninPatternClassificationWithadvancedcomputerandinf
7、ormationtechnologies,dataaccumulatesinaspeedunmatchablebyhuman’scapacityofdataprocessing.Thesizeofdatasetsbecomeslargerandlarger,andtheconstitutionofdatasamplesbecomesmoreandmorecomplicated.Thesefactshavemadethecurrentdataanalyzingtoolssuchasdatamining,machineleamiugorpaRe
8、rnclassificationdifficulttobeapplieddirectlyonthesehugedata鬟蛭s.Aneffectivemathematicaltoo
此文档下载收益归作者所有