欢迎来到天天文库
浏览记录
ID:49412453
大小:426.50 KB
页数:34页
时间:2020-02-06
《模式识别第3讲.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、模式识别模式识别——原理、方法及应用第3次课程概要模式判别PCA特征评价维数比率问题PCAPrincipalcomponentanalysis主元分析或主成分分析功能:简化复杂数据到低维空间,从而发现数据中隐藏的简单结构。原始数据源(生数据)通常有冗余,包含噪声PCA的目标:去除冗余,并发现重要特征PCA特征评价维数比率问题PCA的大致思路认为原始数据X是复杂的(有噪声有冗余),要对X重新表示重新表示后数据的维度即为隐藏于X中的简单结构PCA特征评价维数比率问题PCA怎么做?技术路线利用线性代数为工具,用另一组基去重新描述数据空间新的基能够最好地表示原数据X原有的基是什么样的形式呢
2、?Naïvebasis:目标:找到另一组基,能最好表达数据集,这个新的基是原有基的线性组合PCA特征评价维数比率问题采用该方法就隐含了一个假设:线性。数据限制在一个向量空间里,能被一组基表示基变换n个样本每个样本m个特征构成m×n的矩阵XP是从X到Y的转换矩阵几何上,Y由对X旋转拉伸得到P的行向量构成一组新的基,而Y是在这组基下对X的重新表示PCA特征评价维数比率问题在线性的假设条件下,要解答要寻求一组变换后的基,也就是P的行向量{p1,…pm}这组基就是X的主元要解答的问题1我们要将X转换成为的Y是个什么样子?2对应于Y,如何求解P?PCA特征评价维数比率问题我们要将X转换成为的
3、Y是个什么样子?回顾一下PCA要解决的问题,数据复杂混乱噪声冗余PCA特征评价维数比率问题重要特征和噪声的数学描述信噪比要使得信噪比大,信号的方差大,噪声的方差小假设:变化较大的信息认为是信号,变化较小的则是噪声PCA特征评价维数比率问题冗余的数学描述该变量可以用其它变量表示,因此造成了信息冗余PCA特征评价维数比率问题协方差矩阵可以反映数据的噪声和冗余的程度PCA的目标及它基于的假设PCA特征评价维数比率问题通过基变换,对协方差矩阵进行优化,即使得变换后的数据集Y,其协方差矩阵为对角阵。线性假设:PCA内部模型是线性的,是基于原始特征的线性变换。(如果原始数据存在非线性属性,则经
4、PCA分析后将不再反映这种非线性属性)方差越大,特征越重要。(有些对整体方差贡献不大的主成分,有可能在样本分类方面起至关重要的作用)冗余用相关性表示。(数据的概率分布需要满足高斯分布或是指数型的概率分布)主元正交,即转换基是一组标准正交基。该假设的作用是方便求解PCA求解:特征根分解(1)PCA特征评价维数比率问题寻找一组正交基组成的矩阵P,有Y=PX,使得CY是对角阵,则P的行向量,就是数据X的主元向量。D是一个对角阵E是对称阵A的特征根排成的矩阵解题技巧,令P≡ETPCA求解:特征根分解(2)PCA特征评价维数比率问题PCA算法的一般求解步骤由以上推导,PCA算法的一般求解步骤
5、如下1采集数据,形成m×n的矩阵,m为特征个数,n为样本数。2矩阵中的每个元素减去该维的均值,得到X3求XX‘的特征根PCA特征评价维数比率问题将PCA用于降维由PCA线性变换后得到的数据集,可认为是没有冗余的。在此结构下,可以讨论样本中的哪些属性(特征)比较重要。按方差由大到小排序,但丢弃的准则是什么?PCA特征评价维数比率问题方法一:Kaiser准则丢弃那些低于1的特征值方法二:观察特征值的图,通过斜率检测,即从图中曲线开始变平缓的点开始,丢弃后面的全部特征值。有关PCA需要注意的一个问题原始数据集里,每个特征是有意义的。比如图像中一个对象的形状、颜色等。但是线性变换后,语义信
6、息丢失了。这对我们解释识别过程带来一定的问题。PCA特征评价维数比率问题特征评价对于特征分类能力的评价(1)图形考察:盒状图分布图(2)分布模型评价(3)统计推论检测这些评价方法可为我们观察某些特征集合下的数据分布提供直观的指导信息PCA特征评价维数比率问题盒状图怎么画(1)回顾:盒状图应用在此的目的是:评价特征用于分类的能力因此,我们用来画盒状图的数据是样本集中一个维度(特征)的数据绘制步骤:1)将n个数据由小到大排序。(由大到小也可以)2)计算3个四分位数。a.中位数(第2个四分位数,Q2)如果n为奇数,则排序后,第(n+1)/2位是中位数。如果n为偶数,则排序后,第n/2与第
7、(n+1)/2位数的平均值,为中位数。b.不计Q2,计算前半个数据集的中位数Q1。c.不计Q2,计算后半个数据集的中位数Q3。3)3个四分位数、最小值、最大值共5个数字就可以绘制盒状图了。PCA特征评价维数比率问题盒状图怎么画(2)PCA特征评价维数比率问题将成绩排序班级某科某次测试成绩如下:盒状图怎么画(3)PCA特征评价维数比率问题最小值:27最大值:97Q2:第(39+1)/2=20位的值60Q1:第(19+1)/2=10位的值45Q3:第(21+39)/2=3
此文档下载收益归作者所有