分类学习笔记

分类学习笔记

ID:36316957

大小:637.94 KB

页数:48页

时间:2019-05-09

分类学习笔记_第1页
分类学习笔记_第2页
分类学习笔记_第3页
分类学习笔记_第4页
分类学习笔记_第5页
资源描述:

《分类学习笔记》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、主成分分析Fisher线性分类器支持向量机基于支持向量机的目标跟踪主要内容PCA(principalcomponentanalysis)主成分分析关于PCA的基本问题PCA数学模型主成分的解出PCA的计算步骤实例一、关于PCA的基本问题1、什么是PCA?PCA,即主成分分析是在保证数据信息丢失最少原则下,对高维数据进行降维处理的方法。2、为什么要进行降维?a、“维数灾难”问题,计算量巨大b、维数大,处理结果不理想3、数据降维的目的?a、数据压缩,减少存储量b、提取特征以便进行分类c、去除噪声的影响4、PCA算法

2、基本思想?待处理的变量之间往往具有相关性,其基本思想是设法将原来众多的具有一定相关性的指标,重新组合成一组较少个数的互不相关的综合指标来取代原来的指标。5、PCA的优点和缺点?优点:a、消除了各变量之间的相关影响,减少了计算的工作量b、主成分包含了主要的信息量,特征明显c、此法的计算比较规范,便于在计算机上实现,还可以利用专门的软件缺点:a、应保证所提取的前几个主成分的累计贡献率较高b、因为减少了数据量,所以降维后的变量不如原始变量描述的那么确切二、主成分分析数学模型目的:在空间中找到一个主方向u1,u1包含了

3、数据的大部分信息,我们将空间中的样本点投影到该向量中去,使xi投影后分散的最开。投影表示:这里要求u1为单位向量为什么呢?解释u1为单位向量:投影到由于有一个平方,计算起来比较麻烦,所以我们取即u是一个单位向量表示:评价投影后分散程度的指标:方差方差表示:X投影到u1上,要求方差最大,可以写为:表示n个样本为X={x1,x2,…xn}的均值:其中进一步推导:其中这里的S即为样本X的协方差矩阵。至此,要求投影后样本分散的最开的评价转化为表达式:下面就是求出满足此等式的u1三、主成分求解求解方法:利用拉格朗日方程求

4、解过程:因为列出拉格朗日方程四、求解主成分的步骤1、计算协方差矩阵和其特征根2、计算协方差矩阵特征根对应的特征向量3、计算累积贡献率,给出恰当的主成分个数。4、计算所选出的k个主成分的得分。将原始数据的中心化值:代入前k个主成分的表达式,分别计算出各样本k个主成分的得分。5、取这k个特征值对应的特征向量,得到主元。应用举例:PCA在图像压缩的应用基本思路:(1)将图像分块,每个块代表一个样本(2)求块之间的协方差矩阵(3)求的协方差矩阵的特征值和特征向量(4)取最大的M个特征值对应的特征向量作为主元,将图像块投

5、影到M个单位特征向量上(M的值小于块数)Fisher线性分类器关于Fisher的基本问题线性分类器的数学表达式推导过程计算步骤一、关于Fisher的基本问题1、什么是Fisher?fisher(FisherLinearDiscriminant)线性分类器,顾名思义,就是对数据进行线性分类,把不同类别的数据区分开。比如在智能交通中进行人车分类。2、fisher基本思想?如图所示,fisher基本思想是将n类据集尽可能地投影到一个方向(一条直线),使得类与类之间尽可能地分开。投影原则:数据的类间距离最大,类内距离最

6、小。3、我们要做什么?找到直线的方向,使样本投影到该直线上能最容易分开。如何找到最好的直线方向,如何实现向最好方向投影的变换,是Fisher要解决的基本问题。这个投影变换就是我们寻求的解向量。二、fisher算法的数学表达式直接给出Fisher准则函数的数学表达式:其中:是原d维特征空间里的样本类内离散度矩阵,表示两类均越大越容易区分。值向量之间的离散度大小,因此,而称为原d维维特征空间里,样本“类内离散度”矩阵,所以是样本的“类内总离散度”矩阵。为了便于分类,越小越好,也就是越小越好。并且和皆可由样本集X计算

7、得出。使JF最大的就是最佳解向量,也就是Fisher的线性判别式。显然,我们希望在投影之后,两类之间的距离越大越好,而各类的样本类内离散度越小越好。即JF越大越好。用拉格朗日方程求解的极大值令分母等于非零常数,也就是:定义拉格朗日方程:L对w求偏导数:令得到:经过转换,得到的最终表达式:使取得最大值,可使样本由d维空间向一维空间是一个Fisher线性判断式。映射,其投影方向最好。三、求解步骤效果演示人脸识别分类支持向量机支持向量机简介基本原理优缺点应用前景基于支持向量机的目标跟踪支持向量机支持向量机SVM(Su

8、pportVectorMachine)是统计机器学习的一类重要算法,它是根据统计学习理论,以结构风险最小化原则为理论基础的一种新的机器学习方法,能有效地解决高维数和非线性等问题,有效地进行分类、回归等。线性可分:如果一个线性函数能够将样本完全正确分开,就称这些数据是线性可分的,否则成为非线性可分。线性函数:在一维空间是一个点;二维空间是一条直线;三维空间是一个平面,若不关注维数,这种线

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。