哈工大模式识别课件-第4章概率密度函数的非参数估计

哈工大模式识别课件-第4章概率密度函数的非参数估计

ID:37742500

大小:296.60 KB

页数:46页

时间:2019-05-30

哈工大模式识别课件-第4章概率密度函数的非参数估计_第1页
哈工大模式识别课件-第4章概率密度函数的非参数估计_第2页
哈工大模式识别课件-第4章概率密度函数的非参数估计_第3页
哈工大模式识别课件-第4章概率密度函数的非参数估计_第4页
哈工大模式识别课件-第4章概率密度函数的非参数估计_第5页
资源描述:

《哈工大模式识别课件-第4章概率密度函数的非参数估计》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第四章概率密度函数的非参数估计4.1基本思想4.1基本思想令R是包含样本点x的一个区域,其体积为V,设有n个训练样本,其中有k个落在区域R中,则可对概率密度作出一个估计:相当于用R区域内的平均性质来作为一点x的估计,是一种数据的平滑。有效性当n固定时,V的大小对估计的效果影响很大,过大则平滑过多,不够精确;过小则可能导致在此区域内无样本点,k=0。此方法的有效性取决于样本数量的多少,以及区域体积选择的合适。收敛性构造一系列包含x的区域R1,R2,…,对应n=1,2,…,则对p(x)有一系列的估计:当满足下列条件时,pn(x)收敛于p(x):区域选定

2、的两个途径Parzen窗法:区域体积V是样本数n的函数,如:K-近邻法:落在区域内的样本数k是总样本数n的函数,如:Parzen窗法和K-近邻法4.2Parzen窗方法定义窗函数1维数据的窗函数概率密度函数的估计超立方体中的样本数:概率密度估计:窗函数的要求上述过程是一个内插过程,样本xi距离x越近,对概率密度估计的贡献越大,越远贡献越小。只要满足如下条件,就可以作为窗函数:窗函数的形式窗函数的宽度对估计的影响hn称为窗的宽度窗函数的宽度对估计的影响识别方法保存每个类别所有的训练样本;选择窗函数的形式,根据训练样本数n选择窗函数的h宽度;识别时,利

3、用每个类别的训练样本计算待识别样本x的类条件概率密度:采用Bayes判别准则进行分类。Parzen窗的神经网络实现神经元模型简化神经元模型Parzen窗函数的神经元表示窗函数取Gauss函数,所有的样本归一化,令神经元的权值等于训练样本,即:则有:概率神经网络(PNN,ProbabilisticNeuralNetwork)PNN的训练算法begininitializej=0;n=训练样本数,aij=0dojj+1normalize:train:wjxjifthenaji1untilj=nPNN分类算法begininitializek=0;x

4、待识模式dokk+1ifaki=1thenuntilk=nreturnend径向基函数网络(RBF,RadialBasisFunction)RBF与PNN的差异PNN模式层神经元数等于训练样本数,而RBF小于等于训练样本数;PNN模式层到类别层的连接权值恒为1,而RBF的需要训练;PNN的训练过程简单,只需一步设置即可,而RBF一般需要反复迭代训练;径向基函数网络的训练RBF的训练的三种方法:根据经验选择每个模式层神经元的权值wi以及映射函数的宽度σ,用最小二乘法计算模式层到类别层的权值;用聚类的方法设置模式层每个神经元的权值wi以及映射函数的宽

5、度σ,用最小二乘法计算模式层到类别层的权值;通过训练样本用误差纠正算法迭代计算各层神经元的权值,以及模式层神经元的宽度σ;4.3近邻分类器后验概率的估计Parzen窗法估计的是每个类别的类条件概率密度,而k-近邻法是直接估计每个类别的后验概率。将一个体积为V的区域放到待识样本点x周围,包含k个训练样本点,其中ki个属于ωi类,总的训练样本数为n,则有:k-近邻分类器k-近邻分类算法设置参数k,输入待识别样本x;计算x与每个训练样本的距离;选取距离最小的前k个样本,统计其中包含各个类别的样本数ki;k-近邻分类,k=13最近邻规则分类规则:在训练样本

6、集中寻找与待识别样本x距离最近的样本x',将x分类到x'所属的类别。最近邻规则相当于k=1的k-近邻分类,其分类界面可以用Voronoi网格表示。Voronoi网格距离度量距离度量应满足如下四个性质:非负性:自反性:当且仅当对称性:三角不等式:常用的距离函数欧几里德距离:(EucideanDistance)常用的距离函数街市距离:(ManhattanDistance)常用的距离函数明氏距离:(MinkowskiDistance)常用的距离函数马氏距离:(MahalanobisDistance)常用的距离函数角度相似函数:(AngleDistance

7、)常用的距离函数海明距离:(HammingDistance)x和y为2值特征矢量:D(x,y)定义为x,y中使得不等式成立的i的个数。最近邻分类器的简化最近邻分类器计算的时间复杂度和空间复杂度都为O(dn),d为特征维数,通常只有当样本数n非常大时,分类效果才会好。简化方法可以分为三种:部分距离法;预分类法;剪辑近邻法。部分距离法定义:Dr(x,y)是r的单调不减函数。令Dmin为当前搜索到的最近邻距离,当待识别样本x与某个训练样本xi的部分距离Dr(x,xi)大于Dmin时,Dd(x,xi)一定要大于Dmin,所以xi一定不是最近邻,不需要继续计

8、算Dd(x,xi)。预分类(搜索树)预分类(搜索树)在特征空间中首先找到m个有代表性的样本点,用这些点代表一部分训练样本;

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。