欢迎来到天天文库
浏览记录
ID:39320154
大小:1.78 MB
页数:47页
时间:2019-06-30
《特征选择与提取》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第5章特征选择与特征提取5.1基本概念5.2类别可分性测度5.3基于类内散布矩阵的单类模式特征提取5.4基于K-L变换的多类模式特征提取第5章特征选择与特征提取5.1基本概念①由于测量上可实现性的限制或经济上的考虑,所获得的测量值为数不多。②能获得的性质测量值很多。如果全部直接作为分类特征,耗费机时,且分类效果不一定好。有人称之为“特征维数灾难”。特征选择和提取的目的:经过选择或变换,组成识别特征,尽可能保留分类信息,在保证一定分类精度的前提下,减少特征维数,使分类器的工作即快又准确。1.两种数据测量情况(1)具有很大的识别信息量。即应具有很好的可分性。(2)具有可靠性。模棱两可、似
2、是而非、时是时非等不易判别的特征应丢掉。(3)尽可能强的独立性。重复的、相关性强的特征只选一个。(4)数量尽量少,同时损失的信息尽量小。2.对特征的要求3.特征选择和特征提取的异同(1)特征选择:从L个度量值集合中按一定准则选出供分类用的子集,作为降维(m维,m3、提取的区别:对一个条形和圆进行识别。当模式在空间中发生移动、旋转、缩放时,特征值应保持不变,保证仍可得到同样的识别效果。[法2]:①特征抽取:测量物体向两个坐标轴的投影值,则A、B各有2个值域区间。可以看出,两个物体的投影有重叠,直接使用投影值无法将两者区分开。②特征选择:将坐标系按逆时针方向做一旋转变化,或物体按顺时针方向变,并适当平移等。根据物体在轴上投影的坐标值的正负可区分两个物体。——特征提取,一般用数学的方法进行压缩。BABA5.2类别可分性测度5.2.1基于距离的可分性测度类别可分性测度:衡量类别间可分性的尺度。相似性测度:衡量模式之间相似性的一种尺度类内距离和类间距离类4、概率密度函数类别可分性测度空间分布:随机模式向量:错误率与错误率有关的距离1.类内距离和类内散布矩阵1)类内距离:同一类模式点集内,各样本间的均方距离。平方形式:Xi,,Xj:n维模式点集{X}中的任意两个样本。特征选择和提取的结果应使类内散布矩阵的迹愈?愈好。特征选择和提取的结果应使类内散布矩阵的迹愈小愈好。若{X}中的样本相互独立,有式中,R:该类模式分布的自相关矩阵;M:均值向量;C:协方差矩阵;:C主对角线上的元素,表示模式向量第k个分量的方差;tr:矩阵的迹(方阵主对角线上各元素之和)。2)类内散布矩阵:表示各样本点围绕均值的散布情况,即该类分布的协方差矩阵。类类间散布矩阵5、的迹愈大愈有利于分类。2.类间距离和类间散布矩阵1)类间距离:模式类之间的距离,记为。每类模式均值向量与模式总体均值向量之间平方距离的先验概率加权和。2)类间散布矩阵:表示c类模式在空间的散布情况,记为Sb。类间散布矩阵的迹愈?愈有利于分类。3)类间距离与类间散布矩阵的关系:注意:与类间距离的转置位置不同。3.多类模式向量间的距离和总体散布矩阵1)两类情况的距离q个p个共p×q个距离两个类区之间的距离=p×q个距离的平均距离多类间任意两个点间距离的平均距离类似地多类情况多类间任意两个点间平方距离的平均值(5-8)类的均值向量:(5-10)c类模式总体的均值向量:(5-11)2)多类情6、况的距离(2)Jd的另一种形式:将以下3式代入(5-8)式(1)多类模式向量间的平均平方距离Jd(5-9)平方距离:任意类的组合特定两类间任意样本的组合得某类类内平方距离平均值某类类间平方距离多类模式向量之间的平方距离=各类平方距离的先验概率加权和某类的平方距离模式类间的距离模式类内的距离多类模式向量之间的距离3)多类情况的散布矩阵多类类间散布矩阵:4)多类模式平均平方距离与总体散布矩阵的关系多类类内散布矩阵:——各类模式协方差矩阵的先验概率加权平均值。多类模式的总体散布矩阵:得距离与散布矩阵作为可分性测度的特点:*计算方便,概念直观(反映模式的空间分布情况);*与分类错误率没有直接7、的联系。5.2.2基于概率分布的可分性测度1.散度出发点:对数似然比含有类别的可分性信息。1)散度的定义对不同的X,似然函数不同,对数似然比体现的可分性不同,通常采用平均可分性信息——对数似然比的期望值。类对数似然比的期望值:类对数似然比的期望值:散度等于两类的对数似然比期望值之和。散度表示了区分ωi类和ωj类的总的平均信息。2)散度的性质(1)——特征选择和特征提取应使散度尽可能的?——特征选择和特征提取应使散度尽可能的大。(3)错误率分析中,两类概率密
3、提取的区别:对一个条形和圆进行识别。当模式在空间中发生移动、旋转、缩放时,特征值应保持不变,保证仍可得到同样的识别效果。[法2]:①特征抽取:测量物体向两个坐标轴的投影值,则A、B各有2个值域区间。可以看出,两个物体的投影有重叠,直接使用投影值无法将两者区分开。②特征选择:将坐标系按逆时针方向做一旋转变化,或物体按顺时针方向变,并适当平移等。根据物体在轴上投影的坐标值的正负可区分两个物体。——特征提取,一般用数学的方法进行压缩。BABA5.2类别可分性测度5.2.1基于距离的可分性测度类别可分性测度:衡量类别间可分性的尺度。相似性测度:衡量模式之间相似性的一种尺度类内距离和类间距离类
4、概率密度函数类别可分性测度空间分布:随机模式向量:错误率与错误率有关的距离1.类内距离和类内散布矩阵1)类内距离:同一类模式点集内,各样本间的均方距离。平方形式:Xi,,Xj:n维模式点集{X}中的任意两个样本。特征选择和提取的结果应使类内散布矩阵的迹愈?愈好。特征选择和提取的结果应使类内散布矩阵的迹愈小愈好。若{X}中的样本相互独立,有式中,R:该类模式分布的自相关矩阵;M:均值向量;C:协方差矩阵;:C主对角线上的元素,表示模式向量第k个分量的方差;tr:矩阵的迹(方阵主对角线上各元素之和)。2)类内散布矩阵:表示各样本点围绕均值的散布情况,即该类分布的协方差矩阵。类类间散布矩阵
5、的迹愈大愈有利于分类。2.类间距离和类间散布矩阵1)类间距离:模式类之间的距离,记为。每类模式均值向量与模式总体均值向量之间平方距离的先验概率加权和。2)类间散布矩阵:表示c类模式在空间的散布情况,记为Sb。类间散布矩阵的迹愈?愈有利于分类。3)类间距离与类间散布矩阵的关系:注意:与类间距离的转置位置不同。3.多类模式向量间的距离和总体散布矩阵1)两类情况的距离q个p个共p×q个距离两个类区之间的距离=p×q个距离的平均距离多类间任意两个点间距离的平均距离类似地多类情况多类间任意两个点间平方距离的平均值(5-8)类的均值向量:(5-10)c类模式总体的均值向量:(5-11)2)多类情
6、况的距离(2)Jd的另一种形式:将以下3式代入(5-8)式(1)多类模式向量间的平均平方距离Jd(5-9)平方距离:任意类的组合特定两类间任意样本的组合得某类类内平方距离平均值某类类间平方距离多类模式向量之间的平方距离=各类平方距离的先验概率加权和某类的平方距离模式类间的距离模式类内的距离多类模式向量之间的距离3)多类情况的散布矩阵多类类间散布矩阵:4)多类模式平均平方距离与总体散布矩阵的关系多类类内散布矩阵:——各类模式协方差矩阵的先验概率加权平均值。多类模式的总体散布矩阵:得距离与散布矩阵作为可分性测度的特点:*计算方便,概念直观(反映模式的空间分布情况);*与分类错误率没有直接
7、的联系。5.2.2基于概率分布的可分性测度1.散度出发点:对数似然比含有类别的可分性信息。1)散度的定义对不同的X,似然函数不同,对数似然比体现的可分性不同,通常采用平均可分性信息——对数似然比的期望值。类对数似然比的期望值:类对数似然比的期望值:散度等于两类的对数似然比期望值之和。散度表示了区分ωi类和ωj类的总的平均信息。2)散度的性质(1)——特征选择和特征提取应使散度尽可能的?——特征选择和特征提取应使散度尽可能的大。(3)错误率分析中,两类概率密
此文档下载收益归作者所有