欢迎来到天天文库
浏览记录
ID:22015657
大小:2.40 MB
页数:30页
时间:2018-10-21
《非监督聚类(精)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、模式识别与神经网络PatternRecognitionandNeuralNetwork武汉大学电子信息学院IPL第七章非监督学习方法内容目录IPL第七章非监督学习方法7.1引言32457.2单峰子集的分离方法7.3类别分离的间接方法7.4分级聚类方法7.5聚类中的问题1模式识别与神经网络7.1引言有监督学习(supervisedlearning):用已知类别的样本训练分类器,以求对训练集的数据达到某种最优,并能推广到对新数据的分类?非监督学习(unsupervisedlearning):样本数据类别未知,需要根据样本间的相似性对样本集进行分类(聚类,clustering)?非
2、监督学习方法大致分为两大类:?基于概率密度函数估计的方法?基于样本间相似性度量的方法3第七章非监督学习方法方案对比4第七章非监督学习方法7.2单峰子集的分离方法思想:把特征空间分为若干个区域,在每个区域上混合概率密度函数是单峰的,每个单峰区域对应一个类一维空间中的单峰分离:对样本集KN={xi}应用直方图方法估计概率密度函数,找到概率密度函数的峰以及峰之间的谷底,以谷底为阈值对数据进行分割5第七章非监督学习方法一维空间中的单峰子集分离概率密度分析6第七章非监督学习方法多维空间投影方法多维空间y中直接划分成单峰区域比较困难,把它投影到一维空间x中简化问题。确定合适的投影方向u:使
3、投影{x=uTy}的方差最大,方差越大,类之间分离的程度也可能越大?样本协方差矩阵的最大特征值对应的特征向量满足这样的要求存在问题:这样投影有时并不能产生多峰的边缘密度函数概率密度分析7第七章非监督学习方法投影方法举例8第七章非监督学习方法投影方法算法步骤计算样本y协方差矩阵的最大特征值对应的特征向量u,把样本数据投影到u上,得到v=uTy用直方图法求边缘概率密度函数p(v)找到边缘概率密度函数的各个谷点,在这些谷点上作垂直于u的超平面把数据划分成几个子集如果没有谷点,则用下一个最大的特征值代替对所得到的各个子集进行同样的过程,直至每个子集都是单峰为止概率密度分析9第七章非监督
4、学习方法灰度图像二值化算法灰度图像阈值:概率密度分析10第七章非监督学习方法单峰子集分离的迭代算法概率密度分析把样本集KN={xi}分成c个不相交子集Ki。用这样的一个划分可用Parzon方法估计各类的概率密度函数:聚类准则:即理想的划分应使下式最大11第七章非监督学习方法迭代算法步骤概率密度分析对数据集进行初始划分:K1,K2,…,Kc用Parzon方法估计各聚类的概率密度函数按照最大似然概率逐个对样本xk进行分类:若没有数据点发生类别迁移变化,则停止。否则转212第七章非监督学习方法7.3类别分离的间接方法两个要点:相似性度量,准则函数相似性度量样本间相似性度量:特征空间的
5、某种距离度量样本与样本聚类间相似性度量?13第七章非监督学习方法准则函数准则函数:聚类质量的判别标准,常用的最小误差平方和准则?目标:类内元素相似性高,类间元素相似性低14第七章非监督学习方法C-均值算法(k-Means,k-均值)对样本集KN={xi}尚不知每个样本的类别,但可假设所有样本可分为c类,各类样本在特征空间依类聚集,且近似球形分布用一代表点(prototype)来表示一个聚类,如类内均值mi来代表聚类Ki聚类准则:误差平方和J相似性分析15第七章非监督学习方法C-均值算法的训练初始化:选择c个代表点p1,p2,…,pc建立c个空聚类列表:K1,K2,…,Kc按照最
6、小距离法则逐个对样本x进行分类:计算J及用各聚类列表计算聚类均值,并用来作为各聚类新的代表点(更新代表点)若J不变或代表点未发生变化,则停止。否则转2。相似性分析16第七章非监督学习方法17第七章非监督学习方法C-均值算法举例彩色图像分割:18第七章非监督学习方法C-均值算法的其他考虑按照与c个代表点的最小距离法对新样本y进行分类,即:初始划分的方法更新均值的时机:逐个样本修正法与成批样本修正法聚类数目的动态决定相似性分析19第七章非监督学习方法样本与聚类间相似性度量样本x与聚类Ki间相似性度量:聚类的表示:样本集Ki={xj(i)}用一个所谓的“核函数”Ki,如样本集的某种统
7、计量相似性分析20第七章非监督学习方法样本与聚类间相似性度量基于样本与聚类间相似性度量的动态聚类算法初始化:选择c个初始聚类K1,K2,…,Kc建立c个空聚类列表:L1,L2,…,Lc按照最相似法则逐个对样本进行分类:计算J并用{Li}更新各聚类核函数{Ki}若J不变则停止。否则转2相似性分析21第七章非监督学习方法正态核函数的聚类算法正态核函数,适用于各类为正态分布相似性分析参数集Vi={mi,Σi}为各类样本统计参数相似性度量:22第七章非监督学习方法近邻函数准则算法近邻函数:样本间相似
此文档下载收益归作者所有