模式识别课件总顺序No5第二章NO4陈艳071021非参数估计

模式识别课件总顺序No5第二章NO4陈艳071021非参数估计

ID:37386756

大小:262.10 KB

页数:30页

时间:2019-05-12

模式识别课件总顺序No5第二章NO4陈艳071021非参数估计_第1页
模式识别课件总顺序No5第二章NO4陈艳071021非参数估计_第2页
模式识别课件总顺序No5第二章NO4陈艳071021非参数估计_第3页
模式识别课件总顺序No5第二章NO4陈艳071021非参数估计_第4页
模式识别课件总顺序No5第二章NO4陈艳071021非参数估计_第5页
资源描述:

《模式识别课件总顺序No5第二章NO4陈艳071021非参数估计》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、5总体分布的非参数估计方法前述都设已知总体分布(即已知概密),但实际不然。因此如何用样本来估计总体分布的问题,就是本节的目的—即非参数估计。含有p(x),p(x

2、wi),p(wi

3、x)等的估计。而p(wi

4、x)的估计的一种基本方法是绕过概率的估计而直接求决策函数的方法—即近邻法则。(1)基本方法1)本节所述估计的目的从样本集æ估计样本空间任何一点X的概率密度P’(X);如果æ来自某一类别(如wi类),则估计结果为类条件概密P’(X

5、wi);如果æ来自c个类别,但不具体涉及类别,则估计结果为混合密度P’(X)。2)非参数估计的基本思想①随机向量X落入到区域R的概率P

6、为:这表示概率P是概密函数P(X)的一种平均,对P作估计就是估计出P(X)的这个平均值。P(X)RX②设N个样本x1,x2,…,xn是从概密为P(x)的总体中独立抽取的,则N个样本中有k个样本落在区域R中的概率Pk自然服从二项分布,即其中,P为样本X落入R的概率,Pk为k个样本落入R的概率。使Pk取最大的k值称为众数(记为m),即(众数的意义是:在抽出的N个样本中有m个样本落入区域R的概率最大。)对二项分布,众数m为(N+1)P的整数部分,即这样,在Pm处,就有m=k(N+1)P’NP’即P’k/N式中P’是P的估计,即P’是总体密度P(x)在区域R上

7、的一个估计。③设P(x)连续,且区域R的体积V足够小,则设P’(x)是P(x)的估计,由上面二式得:于是可得:上式就是X点概率密度P(x)的估计值,它与k、N、V有关。说明:①从理论上讲,要使P’(x)趋于P(x),就须让积分域R无限小(即让其V近于零),同时让N、k无穷大,但实际估计时体积V不是任意的小,且样本总数也是有限的,所以P’(x)总是存在误差。②如果把体积V固定,样本取得足够多,则K/N将在概率上收敛,但这时得到的是一个R区域上P(x)的平均估计。即而要想得到P’(x),而不是P(x)在R上的平均,则须让V趋于零。③如果把样本数目固定,而令V趋于零,由

8、于样本数目总是有限的,所以当V趋于零时,会使区域R不断缩小以致于可能不包含任何样本,这就会得出P’(x)=0(无价值的估计);如果恰巧有一个或几个样本同X(点)重合的出现在R中,则会使估计发散到无穷大(这也是无价值的估计)。3)理论上的解决方案为了提高X处的概密P(x)的估计精度,据极限理论,采取如下步骤以尽量满足理论要求。①构造一包含样本X的区域序列R1、R2、…、RN、…各区域RN(N=1,2,…)的体积VN满足:②在RN域中取N个样本进行估计实验,并设有kN个样本落入RN中,样本数目应满足:③应满足:则估计序列(N=1,2,…)处处收敛于P(x)。说明:在区

9、域平滑地缩小,且P(x)在X点连续的情况下,则:条件①可使空间平均密度P/V收敛于真实的密度P(x);条件②仅对P(x)≠0的点才有意义,即当P(x)≠0时,使P’(x)≠0,可使频率在概率意义上收敛于概率;条件③是式收敛的必要条件,它描述了N的增长速度要大于kN的增长速度,使kN/N为无穷小,而kN/N和VN为同阶的无穷小,使为非无穷大的有界数,避免凡满足上述三个条件的区域序列和样本选取都可以。1)Parzen窗估计的概念•要估计d维空间中某点X的概率密度时,可以以X为中心,作一边/棱长为hN的d维超立方体VN,则其体积为:此立方体被视为一个窗口。现在的问题是要

10、求出落入VN中的样本数kN。(2)Parzen窗法u={u1,…,ud}TΦ(u)是一个以原点为中心,边/棱长为1的d维超立方体函数,其函数值为1(可用于计样本数)。1/21/2-1/2-1/2U2U1•为能用函数描述区域RN和对落入RN的样本计数,定义窗函数的基本形式为:•由于通过坐标的平移和尺度的缩放可以改变超立方体的位置和大小。所以对于一个以X为中心,以hN为边/棱长的超立方体,用变量Xi(此Xi可作样本)刻划下的通用窗函数的形式如下:1当0其他窗口X1X2边长为1-X1hNX11hN2此φ函数被称为Parzen窗函数,其含义为如果一个样本Xi落入窗口,则φ

11、=1(即计数为1),否则φ=0(即计数为0)。换句话说,就是检查d维空间中的每一个样本Xi,如果向量X-Xi中的每一分量都小于hN/2,则该样本必在VN以内(且计数为1),否则就在VN以外(且不计数)。故落入VN内的样本数为:这样可得X点处概率估计为这就是Parzen窗法估计的基本公式。讨论:①上式实际上是一个迭加函数,窗函数作迭加基函数,每个样本点处作为迭加节点,使用kN个以样本Xi为中心的窗函数迭加对X处的密度进行估计;②自然,样本较密集的区域上概密估计(迭加函数)值较大;③上式说明每一样本Xi对密度函数的贡献只在一个窗口范围内;④每一样本Xi对估计P’N(x

12、)所起的作

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。