欢迎来到天天文库
浏览记录
ID:4124267
大小:796.72 KB
页数:80页
时间:2017-11-29
《十三、特征选择与变换》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第十三章特征选择与变换13.1引言13.2特征选择(FeatureSelection)13.3特征变换(FeatureTransformation)13.4小结13.1引言模式识别中常常把每个对象量化为一组特征来描述,对特征进行处理是模式识别问题的重要步骤通过直接测量得到的特征称为原始特征比如人体的各种生理指标(描述其健康状况)数字图象中的每点灰度值(以描述图像内容)13.1引言原始特征数量可能很大,不利于学习。比如1324*768的256级灰度图像:直接表示需要786,43
2、2bytes。进行训练识别所需空间、时间、计算量都非常大!特征有很大的冗余。用少量特征就可以很好地近似表示图像。这与压缩的思想类似。很少的样本分布在如此高维的空间中,显得十分稀疏,容易产生过学习的现象。维数灾难!13.1引言如何提取特征与具体问题有很大关系,特征是对象的表达,根据知识来考虑。特征的稳定性特征的可分性好的特征胜过好的学习算法!指纹细节特征13.1引言模式识别中处理特征的方法可分为两类:特征选择(FeatureSelection):从原始特征中挑选出一些最有代表性、可
3、分性能最好的特征来特征变换(FeatureTransformation):希望通过变换消除原始特征之间的相关或减少冗余,得到新的特征13.2特征选择13.2特征选择特征选择从统计的观点来看是变量的选择。特征选择不仅是为了降低特征空间的维数。在很多应用中特征本身具有非常明确的意义,比如基因选择。13.2特征选择特征选择是从原始特征中挑选出分类性能最好的特征子集来每个特征的状态是离散的—选与不选r从d个特征中选取r个,共有Cd种组合。若不限d定个数,则共2种。-NP问题这是一个典型的组
4、合优化问题13.2特征选择搜索策略分支定界法顺序前进法顺序后退法模拟退火法Tabu搜索法遗传算法13.2特征选择顺序前进法——不考虑特征相关性,由少到多,不断增加特征顺序后退法——不考虑特征相关性,由多到少,不断减少特征13.2特征选择遗传算法——该算法受进化论启迪,根据“物竞天择,适者生存”这一规则演变几个术语:基因链码:使用遗传算法时要把问题的每个解编码成一个基因链码。比如要从d个特征中挑选r个,就用一个d位的0或1组成的字符串表示一种特征组合。1表示该特征被选中每个
5、基因链码代表一个解,称作一个“个体”,其中的每一位看作一个“基因”13.2特征选择群体:若干个体的集合,也就是一些解的集合交叉:选择群体中的两个个体,以这两个个体为双亲作基因链码的交叉,从而产生两个新的个体,作为后代。X10001100X'1000101011X01001010X'0100110022变异:对某个体,随机选取其中一位,将其翻转10000101001010适应度:对每个解,以给定的优化准则来评价其性能的优劣,作为其适应度13.2特征选择遗传算法的基本框架:1.初始化进化
6、世代数t=02.给出初始化群体P(t),令Xg为任一个体3.对P(t)中每个个体估值,并将群体中最优解X'与X比较,若优于X,则令X=X'ggg4.如果终止条件满足,则算法结束,Xg为最终结果。否则,转步骤55.从P(t)选择个体并进行交叉和变异操作,得到新一代个体P(t+1),令t=t+1,转步骤3。13.2特征选择关于遗传算法的说明:由步骤3保证了最终解是所搜索过的最优解常用的终止条件是群体的世代数超过一个给定值,或连续数个世代都没有得到更优解群体的大小和演化代数是值得重视的
7、参数。在一定范围内,这两个参数大些能得到更好的解对交叉的亲本选择可采用如下规则:个体的性能越好,被选中的可能性也越大13.2特征选择特征选择的方法大体可分两大类:Filter方法:不考虑所使用的分类算法。通常给出一个独立于分类器的选择准则来评价所选择的特征子集S,然后在所有可能的特征子集中搜索出“最优”特征子集。Wrapper方法:将特征选择和分类器结合在一起,即特征子集的好坏标准是由分类器决定的,在学习过程中表现优异的的特征子集会被选中。13.2特征选择Filter方法的选择准则F
8、isher判别准则互信息量准则13.2特征选择Fisher判别准则——可分性度量(−1)J=trSS1wbtr(S)bJ=2()trSwS+SbwJ=3Sw13.2特征选择迭代计算~StS=Tts~−11~−1T~−11~−1S+SttS−St−1ddS=1T~−11−tSddT~−1d=s−tSt13.2特征选择根据每个特征在两类的距离和方差来评价它的分类能力。jjµ−µ准则函数为F(j)=12jjσ+σ12jjjjxj其中µ1,σ1,µ2,σ2分别
此文档下载收益归作者所有