欢迎来到天天文库
浏览记录
ID:22952952
大小:52.00 KB
页数:5页
时间:2018-11-02
《浅谈一种基于非线性特征提取的数据降维算法》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、浅谈一种基于非线性特征提取的数据降维算法1线性特征提取方法 降维方法是指构造降维映射,获得高维数据低维表示的方法.如何将高维数据表示在低维空间中,并由此发现其内在结构是高维信息处理研究的关键问题之一.实际应用中,根据降维映射方式的不同,可以对降维做线性和非线性的划分.具体思路为:假设高维空间RD中的向量X=(x1,x2,,xD)T通过映射函数F(X)=F1(X)F2(X)FL(Xæççççèö÷÷÷÷&
2、oslash;)=F1(x1,x2,,xD)F2(x1,x2,,xD)FL(x1,x2,,xDæççççèö÷÷÷÷ø)(1)得到低维空间RL中的向量Y=(y1,y2,,yD)T,判断是否为线性降维取决于映射函数F中的每个分量Fi是否为X的线性函数. 线性方法由于具有简单性、易解释性、可延展性等优点,使得线性降维在高维数据处理中成为一个主流研究方向.但另一方面,线性特征提取方法对嵌入到高维
3、数据空间的子空间的线性或者近似线性的假设有太多限制条件,而现实生活中的数据大多是不规则的具有复杂结构的,一般呈现出非线性特征,如视频数据、立体图形数据、动态图像数据等,进而造成的结果就是通过线性映射无法得到理想的效果,从而需要处理系统后期进行大量的修复工作. 主成分分析法(PCA)也叫主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标(即主成分),其中每个主成分都能够反映原始数据的大部分信息,且所含信息互不重复,是目前使用最广的线性降维算法之一.主成分分析法利用数据空间RD中样本的方差大小作为衡量信息量多少的标准,认为方差越大所包含的信息
4、量越多,样本分类越明显,反之提供的信息就越少,样本分类没有明显的边缘特征.主成分分析法通过对数据空间进行线性变换,保留方差大、含信息多的分量,丢掉信息量少的分量,从而降低数据的维数. 线性判别分析(LDA)充分考虑了样本的类别信息,其实质是为了降低数据维数以达到类间距加大,类内间距减小,这是通过寻找一种线性投影方向或者线性变换来实现的,是一种有监督的学习过程.具体算法为:设第k(k=1,2,,c)类的第i幅图像用X(i)k表示,k类的样本数为Nk,第k类的样本平均为μk,那么类间矩阵和类内矩阵分别表示为:SB=1LΣck=1(Nk(
5、μk-μ)(μk-μ)T),(2)S为豪斯多夫拓扑空间,如果M上的每一点P都有一个开邻域UM,能够使U和n维欧氏空间Rn中的一个开子集同胚,那么M就可以称为一个n维流形.其数学定义为:已知数据集X={xi,j=1,2,,N}Rd,如果数据集X中的样本数据是低维空间中的样本集Y通过未知的非线性映射f变换而来,同时还需要考虑噪声εi的影响,即xi=f(yi)+εi,其中yi∈YRm,m<d,f∶Rm→Rd是C∞的嵌入映射,综上所述,流形学习是对已知数据集X:
6、1)通过非线性变换得到低维表达Y={yi,i=1,2,,N}Rm; 2)得出从高维空间到低维空间的非线性映射f-1∶Rd→Rm. 2.2核变换方法与局部线性嵌入 核变换方法的特征提取算法,充分利用了线性特征提取的一些优点,把低维的非线性空间数据映射到高维线性空间,进而将非线性数据线性化,通过已有的线性处理器处理数据.其基本思想为:不在原始的非线性空间进行数据处理,而是在通过线性变换得到的高维线性空间使用线性算法.大部分的非线性算法可以通过核变换方法扩展为线性算法.算法描述为:原始的非线性空间数据用SX表示,通过给定线性映射得到维数更高
7、的线性空间SY:∶SXRn→SYRN. 基于核变换方法,虽然能够将非线性问题线性化,进而通过已有的线性处理器处理数据,但它将低维数据高维化,增加了数据计算的复杂度;同时,并不是所有的非线性变换都能找到合适的核函数.核函数的选取,一方面取决于非线性数据本身所具有的特性,另一方面取决于人们的经验,这就给核函数的选取带来了很大的不确定因素. 局部线性嵌入(LLE)和核变换方法都是将非线性问题转化为线性问题求解.而局部线性嵌入通过构建局部的线性平面,将非线性、高维数据映射到全局低维空间中,进而保持邻域点集合具有线性数据的特征,如旋转、平移不
8、变性.局部线性嵌入将数据空间分割为n个局部空间,每个局部空间通过邻域线性表示,因此,通过邻域几
此文档下载收益归作者所有