《模式识别》PPT课件

《模式识别》PPT课件

ID:38932403

大小:1.42 MB

页数:63页

时间:2019-06-21

《模式识别》PPT课件_第1页
《模式识别》PPT课件_第2页
《模式识别》PPT课件_第3页
《模式识别》PPT课件_第4页
《模式识别》PPT课件_第5页
资源描述:

《《模式识别》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第8章特征选择与提取特征抽取的目的是获取一组“少而精”的分类特征,即获取特征数目少且分类错误概率小的特征向量。特征抽取常常分几步进行。第一步:特征形成第二步:特征选择第三步;待征提取本章只讨论特征选择和特征提取的方法8.1类别可分性准则特征选择或特征提取的任务是从n个特征中求出对分类最有效的m个特征(m<n)。需要一个定量的准则来衡量选择结果的好坏。从理论上讲,设计分类器,那么用分类器的错误概率作为准则就行了。但是,从第四章中错误概率的计算公式就会发现,即使在类条件概率密度已知的情况下错误概率的计算就

2、很复杂,何况实际问题中概率分布常常不知道,这使得直接用错误概率作为准则来评价特征的有效性比较困难。希望找出另外一些更实用的准则来衡量各类间的可分性。希望实用的可分性准则满足下列几条要求:①与错误概率有单调关系。②度量特性:这里是第i类和第j类的可分性准则函数,越大,两类的分离程度就越大。③单调性,即加入新的特征时,准则函数值不减小。8.1.1基于距离的可分性准则各类样本之间的距离越大,则类别可分性越大。因此,可以用各类样本之间的距离的平均值作为可分性准则(8.1-1)式中,c为类别数;Ni为类中样本数

3、;Nj为类中样本数;是相应类别的先验概率;是样本与之间的距离。如果采用欧氏距离,即有(8.1-2)(8.1-3)式中,表示第i类样本集的均值向量表示所有各类的样本集总平均向量也可以用下面定义的矩阵写出的表达式。令(8.1-4)(8.1-5)则其中表示取矩阵的迹。为类内离散度矩阵,为类间离散度矩阵。我们希望类内离散度尽量小,类间离散度尽量大,因此除外,还可以提出下列准则函数8.1.2基于熵函数的可分性准则最佳分类器由后验概率确定,所以可由特征的后验概率分布来衡量它对分类的有效性。如果对某些特征,各类后验

4、概率是相等的,即其中c为类别数,则我们将无从确定样本所属类别,或者我们只能任意指定x属于某一类(假定先验概率相等或不知道),此时其错误概率为另一个极端情况是,如果能有一组特征使得此时x划归类,其错误概率为0。可见后验概率越集中,错误概率就越小。后验概率分布越平缓(接近均匀分布),则分类错误概率就越大。为了衡量后验概率分布的集中程度,需要规定一个定量准则,我们可以借助于信息论中关于熵的概念。设为可能取值的一个随机变量,它的取值依赖于分布密度为的随机向量x(特征向量)。我们想知道的是:给定某一x后,我们从

5、观察的结果中得到了多少信息?或者说的不确定性减少了多少?从特征抽取的角度看,用具有最小不确定性的那些特征进行分类是有利的。在信息论中用“熵”作为不确定性的度量,它是,,…,的函数。可定义如下形式的广义熵:式中,是一个实的正参数,。不同的值可以得到不同的熵分离度量,例如当趋近于1时,根据L’Hospital法则有当=2时,得到平方熵显然,为了对所提取的特征进行评价,我们要计算空间每一点的熵函数。在熵函数取值较大的那一部分空间,不同类的样本必然在较大的程度上互相重叠。因此熵函数的期望值可以表征类别的分离程

6、度,它可用来作为所提取特征的分类性能的准则函数。8.2特征选择从n个特征中挑选出m(m<n)个最有效的特征,这就是特征选择的任务。最直接的特征选择方法是根据专家的知识挑选那些对分类最有影响的特征。另一种是用数学方法进行筛选比较,找出最有分类信息的特征。本节只讨论用数学方法进行特征选择。要完成特征选择的任务,必须解决两个问题:选择的标准,这可以用前面讲的类别可分性准则,选出使某一可分性达到最大的特征组来。找一个较好的算法,以便在较短的时间内找出最优的那一组特征。有两个极端的特征选择算法,一个是单独选择法

7、,另一个是穷举选择法。1.单独选择法就是把n个特征每个特征单独使用时的可分性准则函数值都算出来,按准则函数值从大到小排序,如J(x1)>J(x2)>…>J(xm)>…J(xn)然后,取使J较大的前m个特征作为选择结果。问题:这样得到的m个特征是否就是一个最优的特征组呢?2.穷举选择法从n个特征中挑选m个,把所有可能的组合的可分性准则函数值都算出来,然后看哪一种特征组合的准则函数值最大,我们就选中该种组合的m个特征。这就是穷举选择法。一般,穷举法的计算量太大,以至无法实现。因此,我们常采用一些优化算法进

8、行特征选择。3.穷举法的快速算法穷举法的快速算法的基本技术是合理地组织搜索过程和特征组合,避免具体计算所有的特征组合,同时又能把所有的特征组合都考虑到,不影响达到的最优结果,使选出的一组特征的准则J(·)最大。快速算法的主要依据是分类准则的单调性,若用表示剔除k个特征后的特征组合,则若有则必有分支定界算法是穷举法的一种快速算法。是一种自上而下的搜索方法,且具有回溯功能,首先搜索最右边的分支,按由上到下的顺序搜索完一个子树后,再回到根节点,按由右到左的顺序

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。