模式识别特征的选择和提取

模式识别特征的选择和提取

ID:20033144

大小:331.50 KB

页数:62页

时间:2018-10-09

模式识别特征的选择和提取_第1页
模式识别特征的选择和提取_第2页
模式识别特征的选择和提取_第3页
模式识别特征的选择和提取_第4页
模式识别特征的选择和提取_第5页
资源描述:

《模式识别特征的选择和提取》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第七章特征的选择和提取7.1引言以前讨论分类器设计时,都假定模式的特征向量已经提取出来了(有多少特征确定了)。 特征的多少(维数)、”好坏”对分类器的设计和性能有很大的影响。好的特征容易把类分开,或表示时误差较小。1.特征的维数和特征的“好坏”特征选择和提取的任务是如何从许多特征中找出那些最有效的特征,把高维特征空间压缩到低维特征空间。特征的种类有物理的、结构的、数学的。物理的、结构的特征,人的感觉器官容易感受,数学的特征,如均值、相关系数、协方差矩阵的特征值和特征向量等。 物理和结构特征和所处理的具体问题有关,在解决实际问题时可以依据

2、具体问题而定。这一节研究一般的特征提取和选择的方法。2.几个术语的含义在一些书籍和文献中,在不完全相同的意义上使用“特征提取”和“特征选择”的术语。例如“特征提取”,有的专指特征的形成过程,有的指特征的形成、经选择或变换后得到有效特征的过程。为了方便以后的讨论,我们把特征提取、特征选择的含义明确一下。模式特征的产生过程一般包括以下步骤:1.原始特征的形成:用仪表或传感器测量出来的一些特征量,或通过计算得到的一些特征(对波形和图象),称为原始特征、原始测量或一次特征。2.特征提取:原始特征的数量可能很大,需要通过变换(映射)把高维特征空间降

3、到低维空间,这时的特征叫二次特征,它们一般是原始特征的某种组合。 通过变换A:XY,测量空间特征空间需要尽可能多地保留对分类和表示有利的信息。 好处:减少计算量;在样本少时,便于估计密度函数;提高分类器设计的性能。3.特征选择:从得到的一组特征中,挑选最有效的特征以进一步减少特征空间的维数,得到它的一个有效子集。特征的提取和选择是人类的一项基本智能活动,从相关和不相关信息中找出主要因素。例如在细胞识别中,用变换的方法→较少的特征,用选择的方法→专家意见,或用数学方法进行筛选,从n个→m个。 但“提取”和“选择”不是截然分开的。 具体指什么

4、要从上下文去理解。特征选择时,前m个最好的不一定组合后也是最好的。特征提取可以看作是在减少维数的同时,又能代表、表示原观测向量。 模式识别的任务是判别、分类。维数减少、一般错误率要增加,要限制在一定范围内。7.2基于特征向量分析的特征提取方法这一节讨论基于相关矩阵或协方差矩阵的特征向量的特征抽取方法。这一方法和统计上的主因子分析以及随机过程中的K-L(Karhunen-Loeve)变换(展开)有密切关系。1.模式最优表示特征的提取假定有一n维向量x,希望能用m(

5、2,…,n}。即把x近似表示为前m个基的组合:=y1u1+y2u2+…+ymum式中yj=ujTx写成矩阵形式,=Umy(n×m,m×1)→n×1y=UmTx(m×n,n×1)→m×1其中:y1↑↑↑y=Um=u1u2…umym↓↓↓由于{uj,j=1,2,…,n}是标准正交基,用表示x时的误差(残差)为ε=x-=其中,yj=ujTx,j>m问题是找一组基{uj},使得均方误差ε=E[

6、ε

7、2]=E[

8、x-

9、2]最小。这时的yi就是从x导出的特征,而y=umTx就表示特征变换(由n维→m维)。根据误差公式和基是标准正交的条件,ε=E[εT

10、ε]=E[()()]=如果把yj2写成yj2=(yj)·(yj)=(ujTx)(xTuj)则E[yj2]=ujTE[xxT]uj=ujTRuj,其中R是自相关矩阵(*)ε=要找一组基,使ε最小,同时要满足:ujTuj=1,j=m+1,…,n.把约束ujTuj=1用拉格朗日乘子(法)写入误差中,有ε’=+(*)式的误差化为:=2(Ruj-uj)=0,j=m+1,…,n上式说明uj必须是R的特征向量。(Re=λe)这样,ε===∴为了使ε最小,特征向量um+1,…,un必须是对应最小特征值的,而近似x时所用的m个特征向量是对应m个最大特征值的

11、。使ε’取极值的必要条件是:+上面推导出的特征还有其它意义上的最优性质。 一个分布的熵定义为H=-E[㏑p(y)]粗略地说,当分布很平、延伸很广时,熵最大。如果x是零均值的高斯分布,那么可以证明所选择的特征向量具有最大熵。这些特征向量沿最大方差方向,这样的方向是最随机的,最不确定的,这些方向应保留下来作为特征。对最不确定的事,若有信息(测量),最有用。例三维观测向量的特征提取有一三维观测向量,其相关矩阵为3-10R=-130 003它的特征值和特征向量为λ1=4,λ2=3,λ3=21/01/e1=-1/e2=0e3=1/010要选一个特征

12、,应选e1方向,均方误差是λ2+λ3=5,要选两个特征,应选e1、e2方向,均方误差是λ3=2.表示模式的特征和用于分类的特征的不同(1)均值大小的影响若均值较大,均值就会起大作用,特征在均值

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。