模式识别 第二章 特征选择方法

模式识别 第二章 特征选择方法

ID:12882051

大小:1.21 MB

页数:17页

时间:2018-07-19

模式识别 第二章 特征选择方法_第1页
模式识别 第二章 特征选择方法_第2页
模式识别 第二章 特征选择方法_第3页
模式识别 第二章 特征选择方法_第4页
模式识别 第二章 特征选择方法_第5页
资源描述:

《模式识别 第二章 特征选择方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第二章特征选择方法我们已经知道,在使用模式识别方法时,必须引入各种特征,即与分类有关的各种因素。特征的引入,通常要经过一个从少到多,又从多到少的过程。所谓从少到多,就是在设计识别方案的初期阶段应该尽量多地列举出各种可能与分类有关的特征。这样可以充分利用各种有用的信息,吸收各方面专家的经验,改善分类效果。这一步骤称为特征提取或特征抽取。但是,特征的无限增加对于分类也会带来不利的影响:(1)特征的增加会给计算带来困难,过多的数据要占用大量的存储空间和计算时间;(2)大量的特征中肯定会包含着许多彼此相关的因素,从而造成信息的重复和浪费;(3)特征数是与样品点数有关的。当样品点数固定时,特征

2、数过多,会造成分类效果的恶化。例如,如果把100个样品点放在三维特征空间中,虽然难免会出现混淆或重复,它们总还可能分别形成一些类;而如果把它们放到1000维的空间中,就极可能出现样品点十分分散,无法找出规律。卡纳尔(Kanal,L.)提出:首先,如果想使误差估计值比较准确,样品个数N必须不小于某个客观存在的界限。其次,如果希望得到对于误分概率的良好估计,样品数N与特征数n之比应该足够大;再次,如果N已经确定,那么当n增加时,分类性能先是得到改善,但是当n达到某个最优值后,再增加n,分类性能变坏。通常,样品数N应是特征数n的5倍到10倍左右。为了使特征数目从多变少,需要进行所谓特征选择

3、。特征选择通常包括两方面内容:一方面是对单个特征的选择,即对每个特征分别进行评价,从中找出那些对识别作用最大的特征。另一方面是从大量原有特征出发,构造少数有效的新特征。在模式识别中,最常用的特征选择方法是降维映射。本节要讲述的内容包括:对于单个特征的评价方法;主成分分析及对应分析方法;几种常用线性映射及其性质。2.1对于单个特征的评价在本节中介绍几个对于单个特征进行评价的方法。评价每个特征的标准通常是它的分类能力。通过对于各个特征的评价,可以选出那些对于分类最有效的特征,淘汰那些无效的特征。2.1.1K-W检验K-W(KruskalandWallis)检验是一种常用的特征选择方法。假

4、定要检验某个特征x对于分类的有效程度,已知一批样品共有N个,这批样品分为m类,第i类包括Ni个样品,N1+N2+…+Nm=N,则检验方法如下:(1)列出全部样品所对应的特征x的取值;(2)按照x取值从小到大的顺序给每个样品编号。例如,x取最小的样品编号为1,x取次小的样品编号为2,等等。若有几个样品所对应的x值相同,可以对它们随机编号,也可以采用平均编号的办法。例如,假定前5号已经排出,而当前取值最小的样品有两个,则可以随机地把其中之一排为6号,另一个排为7号。也可以把这两个样品的编号都取做(6+7)/2=6.5,而再下一个样品编号取作8。(1)取每类各样品编号的平均值,分别记作。(

5、2)计算统计量H,公式为(2-1)H满足自由度为m-1的分布。但是,在实用中一般只需比较各特征的H值。H越大时,特征的分类能力越强。例2-1设有N=10个样品,共分m=2类,每个样品取4个特征。用K-W检验比较特征的分类能力。原始资料矩阵见表2-1。表2-1原始矩阵w1w2X1X2X3X4X5X6X7X8X9X10x10.360.410.200.180.270.540.520.680.490.81x20.100.200.300.402.500.600.700.800.900.50x30.100.320.540.780.910.220.460.620.870.99x40.210.350

6、.360.400.690.610.720.750.840.85首先对x1将各样品按取值大小编号。X4所对应的x1值最小,编号为第1号,X3编为第2号,全部编号结果列在表2-2的第一行中。于是对于x1有,则H1=12/(10*11)[5*(3-11/2)2+5*(8-11/2)2]=6.82对于x2,x3,x4分别有H2=2.45,H3=0.27,H4=5.77。所以,特征x1的分类能力最强,x4次之,x3最差。表2-2对于各样品的重新编号X1X2X3X4X5X6X7X8X9X10x145213879610x212341067895x313579246810x412346578910K

7、-W检验的原理是清楚的。首先,式中(N+1)/2是全体样品编号的均值,而是各类样品编号的均值,因此H相当于特征x对应编号的组间离差。其次,用编号代替特征x的原有取值也是不难理解的。表2-1中,两类样品所对应的特征x2的原有取值的平均值都是0.7,即两类均值完全相同,从这一事实来看,x2应该是一个很坏的特征。但是,用x2对样品进行分类时,如果取0.4和0.5之间的某个数作为分界点,被分错的只有一个点X5。这又说明这个特征并不太坏。可见,这完全是由于X5点的x

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。