模式识别课件总顺序No5第二章NO4陈艳071021非参数估计

ID：37386756

大小：262.10 KB

页数：30页

时间：2019-05-12

资源描述：

《模式识别课件总顺序No5第二章NO4陈艳071021非参数估计》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、5总体分布的非参数估计方法前述都设已知总体分布（即已知概密），但实际不然。因此如何用样本来估计总体分布的问题，就是本节的目的—即非参数估计。含有p(x)，p(x

2、wi)，p(wi

3、x)等的估计。而p(wi

4、x)的估计的一种基本方法是绕过概率的估计而直接求决策函数的方法—即近邻法则。(1)基本方法1)本节所述估计的目的从样本集æ估计样本空间任何一点X的概率密度P’(X);如果æ来自某一类别（如wi类），则估计结果为类条件概密P’(X

5、wi)；如果æ来自c个类别，但不具体涉及类别，则估计结果为混合密度P’(X)。2)非参数估计的基本思想①随机向量X落入到区域R的概率P

6、为:这表示概率P是概密函数P(X)的一种平均,对P作估计就是估计出P(X)的这个平均值。P(X)RX②设N个样本x1,x2,…,xn是从概密为P(x)的总体中独立抽取的，则N个样本中有k个样本落在区域R中的概率Pk自然服从二项分布，即其中,P为样本X落入R的概率,Pk为k个样本落入R的概率。使Pk取最大的k值称为众数（记为m），即（众数的意义是：在抽出的N个样本中有m个样本落入区域R的概率最大。）对二项分布，众数m为(N+1)P的整数部分，即这样，在Pm处，就有m=k(N+1)P’NP’即P’k/N式中P’是P的估计，即P’是总体密度P(x)在区域R上

7、的一个估计。③设P(x)连续，且区域R的体积V足够小，则设P’(x)是P(x)的估计，由上面二式得：于是可得：上式就是X点概率密度P(x)的估计值，它与k、N、V有关。说明：①从理论上讲，要使P’(x)趋于P(x)，就须让积分域R无限小（即让其V近于零），同时让N、k无穷大，但实际估计时体积V不是任意的小，且样本总数也是有限的，所以P’(x)总是存在误差。②如果把体积V固定，样本取得足够多，则K/N将在概率上收敛，但这时得到的是一个R区域上P(x)的平均估计。即而要想得到P’(x)，而不是P(x)在R上的平均，则须让V趋于零。③如果把样本数目固定，而令V趋于零，由

8、于样本数目总是有限的，所以当V趋于零时，会使区域R不断缩小以致于可能不包含任何样本，这就会得出P’(x)=0(无价值的估计）；如果恰巧有一个或几个样本同X（点）重合的出现在R中，则会使估计发散到无穷大（这也是无价值的估计）。3)理论上的解决方案为了提高X处的概密P(x)的估计精度，据极限理论，采取如下步骤以尽量满足理论要求。①构造一包含样本X的区域序列R1、R2、…、RN、…各区域RN(N=1，2，…)的体积VN满足：②在RN域中取N个样本进行估计实验，并设有kN个样本落入RN中，样本数目应满足：③应满足：则估计序列（N=1，2，…）处处收敛于P(x)。说明：在区

9、域平滑地缩小，且P(x)在X点连续的情况下，则：条件①可使空间平均密度P/V收敛于真实的密度P(x)；条件②仅对P(x)≠0的点才有意义，即当P(x)≠0时，使P’(x)≠0，可使频率在概率意义上收敛于概率；条件③是式收敛的必要条件，它描述了N的增长速度要大于kN的增长速度，使kN/N为无穷小，而kN/N和VN为同阶的无穷小，使为非无穷大的有界数，避免凡满足上述三个条件的区域序列和样本选取都可以。1)Parzen窗估计的概念•要估计d维空间中某点X的概率密度时，可以以X为中心，作一边／棱长为hN的d维超立方体VN，则其体积为：此立方体被视为一个窗口。现在的问题是要

10、求出落入VN中的样本数kN。(2)Parzen窗法u={u1,…,ud}TΦ(u)是一个以原点为中心，边／棱长为1的d维超立方体函数，其函数值为1（可用于计样本数）。1/21/2-1/2-1/2U2U1•为能用函数描述区域RN和对落入RN的样本计数，定义窗函数的基本形式为：•由于通过坐标的平移和尺度的缩放可以改变超立方体的位置和大小。所以对于一个以X为中心，以hN为边／棱长的超立方体，用变量Xi（此Xi可作样本）刻划下的通用窗函数的形式如下：1当0其他窗口X1X2边长为1-X1hNX11hN2此φ函数被称为Parzen窗函数，其含义为如果一个样本Xi落入窗口，则φ

11、=1（即计数为1），否则φ=0（即计数为0）。换句话说，就是检查d维空间中的每一个样本Xi，如果向量X-Xi中的每一分量都小于hN/2，则该样本必在VN以内（且计数为1），否则就在VN以外（且不计数）。故落入VN内的样本数为：这样可得X点处概率估计为这就是Parzen窗法估计的基本公式。讨论：①上式实际上是一个迭加函数，窗函数作迭加基函数，每个样本点处作为迭加节点，使用kN个以样本Xi为中心的窗函数迭加对X处的密度进行估计；②自然，样本较密集的区域上概密估计（迭加函数）值较大；③上式说明每一样本Xi对密度函数的贡献只在一个窗口范围内；④每一样本Xi对估计P’N(x

12、)所起的作

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 30



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

模式识别课件总顺序No5第二章NO4陈艳071021非参数估计

模式识别课件总顺序No5第二章NO4陈艳071021非参数估计

相关文章

相关标签