非监督学习方法,人工神经网络

非监督学习方法,人工神经网络

ID:22016070

大小:563.50 KB

页数:39页

时间:2018-10-21

非监督学习方法,人工神经网络_第1页
非监督学习方法,人工神经网络_第2页
非监督学习方法,人工神经网络_第3页
非监督学习方法,人工神经网络_第4页
非监督学习方法,人工神经网络_第5页
资源描述:

《非监督学习方法,人工神经网络》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、模式识别非监督学习方法以前讨论的分类方法都是在已知类别标签的样本集的基础上进行的。可是在很多实际应用中由于缺少形成模式类过程的知识,或者由于实际工作中的困难(例如卫星遥感照片上各像元的分类问题),我们往往只能用没有类别标签的样本集进行工作。这就是通常所说的非监督学习方法。一般来说非监督学习方法可以分成两大类,即基于概率密度函数估计的直接方法和基于样本间相似性度量的间接聚类方法。不论是哪一种方法,在把样本集划分为若干个子集(类别)后,我们或者直接用它解决分类问题,或者把它作为训练样本集进行分类器设计。单峰子集的分

2、离方法思想:把特征空间分为若干个区域,在每个区域上混合概率密度函数是单峰的,每个单峰区域对应一个类。一维空间中的单峰分离:对样本集KN={xi}应用直方图方法估计概率密度函数,找到概率密度函数的峰以及峰之间的谷底,以谷底为阈值对数据进行分割。一维空间中的单峰子集分离投影方法算法步骤计算样本y协方差矩阵的最大特征值对应的特征向量u,把样本数据投影到u上,得到v=uTy用直方图法求边缘概率密度函数p(v)找到边缘概率密度函数的各个谷点,在这些谷点上作垂直于u的超平面把数据划分成几个子集如果没有谷点,则用下一个最大的

3、特征值代替对所得到的各个子集进行同样的过程,直至每个子集都是单峰为止单峰子集分离的迭代算法把样本集KN={xi}分成c个不相交子集Ki。用这样的一个划分可用Parzon方法估计各类的概率密度函数:聚类准则:即理想的划分应使下式最大迭代算法步骤对数据集进行初始划分:K1,K2,…,Kc用Parzon方法估计各聚类的概率密度函数按照最大似然概率逐个对样本xk进行分类若没有数据点发生类别迁移变化,则停止。否则转2类别分离的间接方法迭代的动态聚类算法1.C-均值算法2.ISODATA算法3.基于样本和核的相似性度量算法

4、非迭代的分级聚类算法?1.最近距离2.最远距离3.均值距离C-均值算法对样本集KN={xi}尚不知每个样本的类别,但可假设所有样本可分为c类,各类样本在特征空间依类聚集,且近似球形分布。用一代表点来表示一个聚类,如类内均值mi来代表聚类Ki聚类准则:误差平方和JC-均值算法初始化:选择c个代表点p1,p2,…,pc。建立c个空聚类列表:K1,K2,…,Kc。按照最小距离法则逐个对样本x进行分类。计算J及用各聚类列表计算聚类均值,并用来作为各聚类新的代表点(更新代表点)。若J不变或代表点未发生变化,则停止。否则转

5、2。基于样本和核的相似性度量样本x与聚类Ki间相似性度量:聚类的表示:样本集Ki={xj(i)}用一个所谓的“核函数”Ki,如样本集的某种统计量正态核函数的聚类算法正态核函数,适用于各类为正态分布参数集Vi={mi,Σi}为各类样本统计参数相似性度量:近邻函数准则算法近邻函数:样本间相似性的度量 如果yi是yj的第I个近邻,yj是yi的第K个近邻aij=I+K−2,i≠j近邻函数使得密度相近的点容易聚成一类同一类中的点之间存在“连接”,连接损失就定义为两点之间的近邻函数aij一个点和其自身的连接损失aii=2N

6、,以避免只有一个点的聚类不同类的点不存在连接,连接损失aii=0总类内损失:近邻函数准则算法步骤:计算距离矩阵用距离矩阵计算近邻矩阵计算近邻函数矩阵在L中,每个点与其最近邻连接,形成初始的划分对每两个类计算rij和aimax,ajmax,只要rij小于aimax、ajmax中的任何一个,就合并两类(建立连接)。重复至没有新的连接发生为止分级聚类方法划分序列:N个样本自底向上逐步合并:每个样本自成一类(划分水平1)K水平划分的进行:计算已有的c=N-K+2个类的类间距离矩阵D(K-1)=[dij](K-1),其最

7、小元素记作d(K-1),相应的两个类合并成一类重复第2步,直至形成包含所有样本的类(划分水平C)划分处于K水平时,类数c=N-K+1,类间距离矩阵D(K)=[dij](K),其最小元素记作d(K)如果d(K)>阈值dT,则说明此水平上的聚类是适宜的分级聚类树表示方法y1y2y3y4y5y61009080706050401-水平--2-水平--3-水平--4-水平--5-水平--6-水平--两聚类间的距离度量聚类Ki与Kj间的距离度量最近距离:最远距离:均值距离:聚类中的问题非监督模式识别问题存在更大的不确定性:

8、可利用信息少相似性度量一般对数据尺度较敏感影响聚类结果的因素:样本的分布,样本数量,聚类准则,相似性度量,预分类数等针对不同数据,不同目标选择不同的聚类算法动态聚类算法计算效率高,实际应用多人工神经网络模式识别与人工智能所研究的是如何用计算机实现人脑的一些功能。一方面,从要实现的功能出发,我们可以将功能分解成子功能,直至设计出算法来实现这些功能。这是自顶向下的设计方法。另一方面,人脑无

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。