欢迎来到天天文库
浏览记录
ID:59222157
大小:107.19 KB
页数:7页
时间:2020-09-09
《半监督判别分析.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、半监督判别分析摘要线性判别分析(LDA)已经成为特征提取的常用方法,此方法可保存类可分性。通常投影向量通过最大化类间协方差,同时最大限度地减少类内协方差的方式获得的。在实践中,当没有足够的训练样本,每个类的协方差矩阵的估计可能不准确。在本文中,我们提出了一种新的方法,称为半监督判别分析(SDA),这种方法既使用的标记样本有使用未标记的样本。标记的数据点是用来最大化不同类别之间的可分性,而未标记的数据点用来估计数据的内在的几何结构。具体来说,我们的目标是学习的一个判别函数,使其尽可能平稳地表示数据流形。单训练图像的人脸识别和相关反馈图像检索的实验结果可以证明我们算法的有效性。1
2、.介绍在许多可视化分析应用中,如图像检索、人脸识别等,它们都会遭遇高维数据的问题。然而,有理由怀疑,自然产生的高维数据可能驻留在一个低维流形。这导致我们去考虑降维方法,这种方法允许高维数据代表一个较低维空间中的数据。要达到此目的,有两个最流行的方法,分别是是主成分分析(PCA)和线性判别分析(LDA)。主成分分析法是一种无监督的方法。该方法是通过将原来的N维数据投影到高维的线性子空间的方式来实现降维,而线性子空间通过数据的协方差矩阵的主要特征向量来跨越。它的目标是找到一组相互正交的基函数,用于捕获数据中最大方差的方向,因此,成对的欧氏距离可以最好地保存。如果数据被嵌入在一个线
3、性子空间,主成分分析可以保证挖掘出子空间的维数,并产生一个简洁的表示。LDA是一种有监督的方法。它搜索项目轴,在该轴上,不同类别的数据点相距很远,同时要求同一类的数据点彼此接近。当标签信息可获得时,例如,用于分类任务,LDA可以实现的性能优于PCA。然而,当相对于维度数量没有足够的训练样本的时,每个类的协方差矩阵的估计可能不准确。在这种情况下,测试样品的泛化能力不能得到保证。一个可行的解决方案可以应对培训(标记)样本不足的情况,该方法既学习标记得数据又未标记的数据(半监督和直推式学习)。这种方法既时自然的也是合理的,因为在现实中,我们通常只有一部分的输入数据被标记,以及大量的
4、未标记的数据。在过去的几十年中,半监督学习(或直推式学习)吸引了越来越多的关注。两个众所周知的算法分别是直推式支持向量机(TSVM)和协同训练。最近,基于半监督学习算法的图像分析有相当大的兴趣和成功,这种方法考虑将所有的样本的图形作为前提来指导决策。所有这些算法考虑的都是分类问题,要么直推法,要么归纳法。在本文中,我们的目标是在半监督的情况下的降维。我们提出了一种半监督降维算法,称为半监督判别分析(SDA)。SDA的目的是找到一个投影,这个投影代表从标记的数据点中推断出的判别结构,以及代表从标记和未标记的数据点中推断出的固有的几何结构。具体而言,这些结合未标记的数据点标记的数
5、据点,被用于建立一个包含数据集邻域信息的图。该图提供了一个相对于数据流形局部几何的离散的近似值。利用拉普拉斯图的概念,图上的一个平滑可以纳入目标函数。这样,我们的SDA算法可以优化保留流形结构。本文的其余部分组织如下。在第2节中,我们提供LDA简要回顾。在第三部分中,我们介绍我们的半监督判别分析(SDA)的降维算法。在第4节,称述实验结果。最后在第5节,我们总结本文,并为今后的工作提供建议。1.LDA的图视角线性判别分析(LDA)寻求某种方向,再次方向上的不同类别的数据点相距很远,同时要求同一类的数据点彼此接近。假设我们有一组L样本,属于C类。LDA的目标函数如下:,(1),
6、(2),(3)其中,是总样本的均值向量,是k类样本数,是第k个类的平均向量,是在第k个类的第i个样本。我们称为类内散布矩阵,称为类间散布矩阵。确定的总散射矩阵,我们有,那么公式(1)中的线性判别分析的目标函数就等于,(4)最佳的a是与本征问题的非零特征值对应的特征向量:,(5)由于的阶是由C−1限制,所以最多的有C−1个非零特征值对应的特征向量。无一般性损失,我们假设。我们有其中,是一个的矩阵,他的所有元素都等于,同时,它表示k类的数据矩阵。让数据矩阵并且定义一个的矩阵为(6)我们有(7)因此,在方程式(4)中线性判别分析的目标函数可以改写为(8)LDA目标函数的公式将对发展
7、我们的算法是非常有帮助的。他第一次被介绍在141.半监督判别分析LDA考虑者正寻求完全基于训练集的最优预测。在现实中,获得一个大规模未标记的数据集是有可能的。在这部分中,我们试图扩展LDA模型去涵盖由未标记的数据表示的流形结构。3.1.目标函数LDA的目的是找到一个投影向量,以至于和之间的比例最大化。当没有足够的训练样本时,过拟合将发生。一个防止过拟合的E典型方法来是加强规范化。LDA的规范化版本的优化问题可以写成如下:(9)其中,控制假设群的学习复杂度,而系数α控制模型复杂度与实验误差之间的平衡。一个
此文档下载收益归作者所有