欢迎来到天天文库
浏览记录
ID:59153442
大小:214.28 KB
页数:5页
时间:2020-09-11
《模式识别期末复习总结.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、1、贝叶斯分类器贝叶斯分类器的定义:在具有模式的完整统计知识的条件下,按照贝叶斯决策理论进行设计的一种最优分类器。贝叶斯分类器的分类原理:通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。贝叶斯分类器是各种分类器中分类错误概率最小或者在预先给定代价的情况下平均风险最小的分类器。贝叶斯的公式:什么情况下使用贝叶斯分类器:对先验概率和类概率密度有充分的先验知识,或者有足够多的样本,可以较好的进行概率密度估计,如果这些条件不满足,则采用最优方法设计出的分类器往往不具有最优性质。2、K近邻法kNN算法的核心
2、思想:如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。假设有N个已知样本分属c个类ωi,i=1,…,c,考察新样本x在这些样本中的前K个近邻,设其中有ki个属于ωi类,则ωi类的判别函数就是gix=kii=1,…,c决策规则:若gkx=max1≤i≤cgix则x∈ωk什么情况下使用K近邻法:kNN只是确定一种决策原则,在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别,并不需要利用已知数据事先训练出一个判别函数,这种方法不需要太多的先验知识。在样本数量不足时,KNN法通常也可
3、以得到不错的结果。但是这种决策算法需要始终存储所有的已知样本,并将每一个新样本与所有已知样本进行比较和排序,其计算和存储的成本都很大。对于类域的交叉或重叠较多的待分样本集来说,kNN方法较其他方法更为适合。3、PCA和LDA的区别PrincipalComponentsAnalysis(PCA):usesasignalrepresentationcriterionLinearDiscriminantAnalysis(LDA):usesasignalclassificationcriterionLDA:线性判别分析,一种分类方法。它寻找线性分类器最佳的法线向量方向,将高维数据
4、投影到一维空间,使两类样本在该方向上的投影满足类内尽可能密集,类间尽可能分开。即使投影后两类相隔尽可能远,而同时每一类的样本又尽可能聚集。PCA:主成分分析法,一种数据降维方法。它将高维的数据映射到低维的空间中表示,新特征是原有特征的线性组合。降维之后能够最大化保持数据的内在信息,并期望在所投影的维度上数据的方差最大,以此使用较少的数据维度,同时保留住较多的原数据点的特性。PCA和LDA的区别:PCA主要是从特征的协方差角度,去找到比较好的投影方式;LDA选择分类性能最好的方向,期望投影后类间距更大,类内距更小。PCA是无监督的方式,它没有分类标签,降维之后需要采用K-M
5、eans或自组织映射网络等无监督的算法进行分类;LDA是有监督的,它先对训练数据进行降维,然后找出一个线性判别函数。PCA投影的坐标系都是正交的;LDA根据类别的标注,关注分类能力,因此不保证投影到的坐标系是正交的。4、开测试,闭测试开测试:测试样本不包含训练样本闭测试:测试样本包含训练样本5、维数,训练样本对分类器性能的影响维数:从理论上讲,在有无限的训练样本的情况下。不断的增加新的特征并不会影响最终的分类结果,最坏的情况也就是分类器忽略了新加的特征,而只要新特征提供了有用的信息,那么分类器的精确度就会提高。在实际情况中,刚开始随着维数的增加,精确度也会越来越高,但当维
6、数到达一定值后,精确度会下降。这就是“维数灾难”:因为我们的样本不是无限多的,在高维的情况下,样本密度会越来越稀疏,很容易就能找到一个超平面将训练样本分开,但当其映射到低维空间时,得到的是一个复杂的非线性分类器。如果将其用来辨别那些未曾出现在训练样本中的测试样本时,通常结果不太理想。这其实就是我们在机器学习中学过的过拟合问题。另外,随着维数的增加,大部分分类器计算的时间复杂度会呈指数型提高。样本数量:从理论上讲,样本越多,分类器的精确度也会越高。在实际情况中,因为存在特征维数的限制,随着样本增多,精确度会逐渐升高然后趋于稳定。又因为实际情况的样本中可能存在着噪声,如果后来
7、增加的样本噪声太多,精确度反而可能下降。从效率上来说,样本越多,时间复杂度会线性提高。6、监督学习在概率密度函数不知道的情况下怎么分类对于贝叶斯分类器来说,就是用学习样本估计特征向量的类条件概率密度函数。在已知类条件概率密度函数形式的条件下,用给定的独立和随机获取的样本集,根据最大似然法或贝叶斯学习估计出类条件概率密度函数的参数。例如,假定模式的特征向量服从正态分布,样本的平均特征向量和样本协方差矩阵就是正态分布的均值向量和协方差矩阵的最大似然估计。在类条件概率密度函数的形式未知的情况下,有各种非参数方法,直接用学习样本对类条
此文档下载收益归作者所有