基于样本类可分性分析的特征选择研究

基于样本类可分性分析的特征选择研究

ID:46583416

大小:239.74 KB

页数:4页

时间:2019-11-25

基于样本类可分性分析的特征选择研究_第1页
基于样本类可分性分析的特征选择研究_第2页
基于样本类可分性分析的特征选择研究_第3页
基于样本类可分性分析的特征选择研究_第4页
资源描述:

《基于样本类可分性分析的特征选择研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第卷第期燕山大学学报年月文章编号:1007-791X(2008)06-0493-04基于样本类可分性分析的特征选择研究崔建新,洪文学,高海波,王金甲(燕山大学电气工程学院,河北秦皇岛;河北省测试计量技术及仪器重点实验室,河北秦皇岛)摘要:在传统类间散布矩阵理论的基础上,提出了类间的两两散布矩阵和类间重叠系数矩阵。传统的类间散布矩阵对于两类或多类的类别均值和全局均值之间距离值相近时难以区分,而且对于方差大而分类信息差的向量也无能为力。类间重叠系数矩阵可以剔除方差大而分类信息差的向量,两两类间散布矩阵则用

2、于区分类别均值和全局均值之间距离值相近的向量。实验证明该方法生成的特征向量取得的分类效果较好。关键词:多元信息;散布矩阵;类间重叠系数;特征选择中图分类号:TP391文献标识码:A引言距离值相近时难以区分,而且,对于方差大而分类信息差的向量也无能为力。在多元信息模式分类过程中,维灾已经成为一个主要问题,计算的复杂性和分类器的通用性都要本文在原有理论的基础上对类间散布矩阵进求降低维数。那么,如何从很多的变量特征中得到行了优化,提出了多类问题的两两类间散布矩阵和重要特征以减少特征数量,同时尽量保留分类信息

3、类间重叠系数矩阵。类间重叠系数矩阵可以剔除方成为模式识别中的一个重要问题。如果该过程通过差大而分类信息差的向量,每两类之间的散布矩阵对原变量的筛除和选择来实现,这个过程就称为特则用于区分类别均值和全局均值之间距离值相近征选择或特征压缩;如果通过对于原始变量空间的的向量。而且,对于个类维样本的问题,计算线性或非线性变换来实现就称为特征提取。特征选复杂度仍是。实验证明该方法生成的特征向择的方法很多,如基于统计假设检验的特征选量的分类效果更好。择、曲线、界、距离散布矩阵和散布矩阵等。其中基于统计假设检验的特

4、征选择和曲线都是单个特征的区分技术,没有考虑各类样本可以分开是因为它们位于特征空间各个特征相互之间的联系,这将影响到生成的特征中的不同区域,显然这些区域之间距离越大类别可向量的分类能力。界和距分性就越大,因此定义如下矩阵。离有一个主要缺点是不容易计算,除非假设为高斯类内散布矩阵分布。而散布矩阵既计算简便又考虑了特征向量样本分布之间的关系。散布矩阵定义了类内散布矩阵、类间散布矩阵和混合散布矩阵,其中混合散布矩阵是类内散布矩阵和类间散布矩阵之和。类内散其中,是类的协方差矩阵,;布矩阵的迹是所有类的特征方差

5、的平均测度,类间是类的先验概率,换言之,,其中是散布矩阵的迹是每一类的均值和全局均值之间平个总样本中属于类的样本数。很明显,迹是均距离的一种测度。从定义的类间散布矩阵中可以所有类的特征方差的平均测度。看出,对于两类或多类的类别均值和全局均值之间收稿日期:基金项目:国家自然科学基金资助项目(;)作者简介:崔建新(),女,河北秦皇岛人。博士研究生。主要研究方向为多元信息图表达、多元信息特征选择、分类等。燕山大学学报类间散布矩阵其他其中,其他表示处于模式类变量数据分布区间之内其它模式类的样本数,表示模式类样

6、本数。其中,是全局均值向量,。迹是每表示样本第个变量的综合类间重叠系数,对于类一类的均值与全局均值之间平均距离的一种测度。问题表达式为混合散布矩阵其他其中,表示样本总数。以和为元素组成样本集是全局均值向量的协方差矩阵,且有。的类间重叠系数矩阵,表示为迹是特征值关于全局均值的方差和。从以上定义可以直接得到准则迹迹在维空间中,每一类的样本都很好地聚类在均值周围,而且不同类是完全分离时,该式计算值的值表征多元信息第个变量对于第个模式类的大。有时用代替。如果用行列式代替迹,则产分立特性,的值越靠近表明第个变量

7、对于第生另一个标准。当行列式和它们的乘积相等时,则个模式类的分立特性越优异。表征多元信息第个迹等于本征值之和。因此,值越大,相应的准则变量的所有模式类的综合分立特性,的值越靠近值也越大表明第个变量的综合分立特性越优异。两两类间散布矩阵实际中经常将改为传统的散布矩阵对于两类或多类的类别均值和全局均值之间距离值相近时难以区分,而且,对迹于方差大而分类信息差的向量也无能为力。因此,在原有散布矩阵理论基础上,融入每两类之间的散和在线性变换中具有不变性的优点。利用这个布矩阵和类间重叠系数矩阵。类间重叠系数矩阵可

8、优点可定义一系列不同的准则。以剔除方差大而分类信息差的向量,每两类之间的散布矩阵则用于区分类别均值和全局均值之间距类间重叠系数矩阵离值相近的向量。研究对象的不同状态在测量中表现为不同的每两类之间的散布矩阵简称为类-类间散布样本数据,每一种具体状态称为对象的一种模式。矩阵,定义如下具有一定共同特征的群体组成相应模式类,模式分类工作是把各个表达为具体样本数据的模式归入其对应模式类中。样本变量的模式类分立特性是表征不同模式而原有的类间散布矩阵称为类-均间散布矩

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。