特征选择方法综述

特征选择方法综述

ID:38797834

大小:96.00 KB

页数:3页

时间:2019-06-19

特征选择方法综述_第1页
特征选择方法综述_第2页
特征选择方法综述_第3页
资源描述:

《特征选择方法综述》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、特征选择方法综述为什么要解决正确有效的特征选择?1、在样本有限的情况下,用大量特征来设计分类器无论是从计算机开销还是从分类器性能来看都不合时宜2、特征和分类器性能之间并不存在线性关系,当特征数量超过一定限度时,会导致分类器性能变坏特征获取过程经典特征选择定义:从N个特征集合中选出M个特征的子集,并满足条件M<=N特征提取广义上是指一种变换,将处于高维空间的样本通过映射或变换的方式转换到底维空间,达到降维的目的特征选择从一组特征中去除冗余或不相关的特征来降维二者常联合使用要考虑特征子集的稳定性特征获取的定义出了考虑对分类结果等的影响外,特征自身稳定性也是一个应该注意的因素,因此定义特征获取为获

2、得尽可能小的特征子集过程,并满足不显著降低分类精度、不影响分类分布以及特征子集应具有稳定、适应性强的特点特征获取方法分类特征获取要解决的问题:1、确定选择算法在允许的时间内,以可以忍受的代价找出最小的、最能描述类别的特征组合2、确定评价标准衡量特征组合是否最优,得到特征获取操作的停止条件分两步进行特征获取,产生特征子集,然后对子集进行评价,如果满足条件,则操作完毕,否则重复前述两步知道条件满足为止按照特征子集形成方式分类:穷举(exhaustion)法遍历特征空间中所有特征的组合,选取最优特征组合子集的方法。假设特征个数为N时,计算复杂度为O(2的N次方)。常用的方法有回溯方法及其变体。优点

3、在于一定能得到最优子集,但实际情况下由于特征空间过于庞大,时间耗费和计算复杂度太大,导致实用性不强启发法(heuristic)一种近似算法,具有很强的主观倾向。实际应用中通过采用期望的人工机器调度规则,重复迭代产生递增的特征子集。特征个数为N时,复杂度一般小于或者等于O(N的二次方)。这种方法实现过程比较简单而且快速,在实际中应用非常广泛,如向前(向后)选择、决策树法、relief方法及其变体等,但不能保证结果最优,一般获得近似最优解得解随机法(random)相对较新的方法,细分为完全随机方法和概率方法;完全随机方法是指“纯”随机产生子集,概率随机是指子集的产生依照给定的概率进行。虽然计算复

4、杂度仍为O(2的N次方),但通过设置最大迭代次数可以限制复杂度小于O(2的N次方)。常用的方法有LVF、遗传算法、模拟退火算法及其变体,这些方法需要进行参数设置,并且参数值决定是否能得到最优解。如何设置是个问题??总得来说,只有穷举法能保障最优,但耗时并且计算复杂度很高,后两者以性能为代价换取简单、快速的实现,但不能保障最优。先使用relief算法去除无关的特征,其次采用k均值法去除冗余特征,然后进行标准的组合特征方法,取得了较好的效果按照特征评价标准分类哪些特征组合有助于分类,哪些特征组合存在冗余性、部分或者完全无关根据评价函数与分类器的关系,特征选择方法分成:筛选器评价函数与分类器无关筛

5、选器的评价函数可以分为:距离测度利用距离来度量样本之间相似度的一种方式。分布于不同区域的样本,样本之间距离越小越相似,样本之间距离越大,其可分性就越大。最为常用的一些重要距离测度有欧式距离、s阶Minkowski测度、chebychev距离、平方距离、非线性测量等,其中欧式可以看做是2阶的minkowski直接从样本间的距离计算获取的距离判据虽然计算方便,直观概念清楚,但没有考虑各类的概率分布,不能确切表明各类交叠的情况。常用的概率距离测度有bhattacharyya距离、散度、chernoff概率距离一级mahalanobis距离等信息测度为了衡量后验概率分布的集中程度所规定的一个定量指标

6、。从特征获取的角度来看,利用具有最小不确定性的那些特征来分类是最有利的,因此引入信息领域中作为不确定性亮度的熵函数有shannon熵、renyi熵和条件熵等相关性测度既可以利用相关系数,找出特征和类之间存在的相互关系;又可以利用特征之间的依赖关系,来表示特征的冗余性一致性测度和训练数据集关系密切,并且需要设定参数,最后得到的结果为满足给定参数的最小尺寸特征子集封装器采用分类器的错误概率作为评价函数特征获取方法的选择原则良好的特征集合应具有可辨别性好、可靠性高、独立性强、稳定性高和数量少等特点选取原则1、处理数据类型的能力判断是否支持离散数据、连续数据或布尔类型数据。各种特征选择方法有其处理数

7、据类型的范围,如分支界定法布支持布尔类型,Koller—sahamis不支持连续类型等2、处理问题规模的能力判断是否能处理两类问题或者多类问题,如relief不支持多类问题。可以把果类问题分为若干个两类问题,然后利用两类问题的选择方法进行处理来扩展处理能力3、处理样本数量的能力判断是否能够处理小样本数据集或海量数据4、对噪声的容忍能力5、无噪声情况下,产生稳定的,最优特征子集的能力

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。