哈工大模式识别课程10.非监督学习.ppt

哈工大模式识别课程10.非监督学习.ppt

ID:48029171

大小:5.58 MB

页数:68页

时间:2020-01-11

哈工大模式识别课程10.非监督学习.ppt_第1页
哈工大模式识别课程10.非监督学习.ppt_第2页
哈工大模式识别课程10.非监督学习.ppt_第3页
哈工大模式识别课程10.非监督学习.ppt_第4页
哈工大模式识别课程10.非监督学习.ppt_第5页
资源描述:

《哈工大模式识别课程10.非监督学习.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、主要内容1.引言2.单峰子集(类)的分离方法3.类别分离的间接方法4.分级聚类方法11.引言2引言有监督学习(supervisedlearning):分类器设计方法是在样本集中的类别标签已知的条件下进行的,这些样本称为训练样本。在样本标签已知的情况下,可以统计出各类训练样本不同的描述量,如其概率分布,或在特征空间分布的区域等,利用这些参数进行分类器设计。?用已知类别的样本训练分类器,以求对训练集的数据达到某种最优,并能推广到对新数据的分类。3无监督学习(unsupervisedlearning):样本数据类别未知,需要根据样本间的相似性对样本集进行分类(聚类,clu

2、stering),试图使类内差距最小化,类间差距最大化。利用聚类结果,可以提取数据集中隐藏的信息,对未来数据进行预测和分类。应用于数据挖掘、模式识别、图像处理、经济学……引言4广泛的应用领域商务:帮助市场分析人员从客户信息库中发现不同的客户群,用购买模式来刻画不同的客户群的特征土地使用:在地球观测数据库中识别土地使用情况相似的地区保险业:汽车保险单持有者的分组,标识那些有较高平均赔偿成本的客户。城市规划:根据房子的类型,价值和地理分布对房子分组生物学:推导植物和动物的分类,对基因进行分类地震研究:根据地质断层的特点把已观察到的地震中心分成不同的类。5有监督学习与无监

3、督学习的区别有监督学习方法必须要有训练集与测试样本。在训练集中找规律,而对测试样本使用这种规律;而非监督学习没有训练集这一说,只有一组数据,在该组数据集内寻找规律。有监督学习方法的目的就是识别事物,识别的结果表现在给待识别数据加上了标号。因此训练样本集必须由带标号的样本组成。而非监督学习方法只有要分析的数据集本身,预先没有什么标号。如果发现数据集呈现某种聚集性,则可按自然的聚集性分类,但不以与某种预先的分类标号对上号为目的。6无监督学习方法在寻找数据集中的规律性,这种规律性并不一定要达到划分数据集的目的,也就是说不一定要“分类”。这一点是比有监督学习方法的用途要广泛

4、。譬如分析一堆数据的主分量,或分析数据集有什么特点都可以归于无监督学习方法的范畴。用无监督学习方法分析数据集的主分量与用K-L变换计算数据集的主分量又有区别。应该说后者从方法上讲不是一种学习方法。因此用K-L变换找主分量不属于无监督学习方法,即方法上不是。而通过学习逐渐找到规律性这体现了学习方法这一点。在人工神经元网络中寻找主分量的方法属于无监督学习方法。有监督学习与无监督学习的区别7无监督学习方法的分类基于概率密度函数估计的方法:指设法找到各类别在特征空间的分布参数再进行分类。?基于样本间相似性度量的方法:直接按样本间的相似性,或彼此间在特征空间中的距离长短进行分

5、类。其原理是设法定出不同类别的核心,然后依据样本与这些核心之间的相似性度量,将样本聚集成不同类别。如何聚类则取决于聚类的准则函数,以使某种聚类准则达到极值为最佳。两种聚类方法:迭代的动态聚类方法和非迭代的分级聚类方法82.单峰子集(类)的分离方法9思想:把特征空间分为若干个区域,在每个区域上混合概率密度函数是单峰的,每个单峰区域对应一个类别。【基本思想】10直接方法一维空间中的单峰分离:对样本集KN={xi}应用直方图/Parzen窗方法估计概率密度函数,找到概率密度函数的峰以及峰之间的谷底,以谷底为阈值对数据进行分割。【一维空间中的单峰子集分离】11【多维空间投影

6、方法】基本思路:多维空间中直接划分成单峰区域比较困难,而一维空间中则比较简单。?寻找一个坐标系统,在该系统下,数据的混合概率密度函数可以用边缘概率密度表示。?如果某边缘概率密度函数呈现多峰形式,则在此坐标轴上(一维)作分割。做法:把样本投影到某一一维坐标轴(按某种准则),在这一维上求样本的概率密度(边缘概率密度),根据这一概率密度函数的单峰划分子集。(如果这一维上只有一个峰,则寻找下一个投影方向。)投影方向:使方差最大的方向,即协方差阵本征值最大的本征向量方向。12【投影方法】基本步骤13【投影方法】直方图法求概率密度函数:14问题:这样投影有时并不能产生多峰的边缘

7、密度函数-方差最大的准则有时并不一定最有利于聚类。【存在问题】失败的例子15【基于对称集性质的单峰子集分离法】对称集的定义:16【基于对称集性质的单峰子集分离法】基本步骤:17【基于对称集性质的单峰子集分离法】基本步骤:18【单峰子集分离的迭代算法】概念:19【单峰子集分离的迭代算法】20【单峰子集分离的迭代算法】目标:步骤:213.类别分离的间接方法22【引言】回顾:直接方法:1.估计概率密度函数——困难2.寻找密度函数中的单峰间接方法:考查样本这间的相似性,根据相似性把样本集划分为若干子集,使某种表示聚类质量的准则函数最优。不同的聚类方法实际上反映了对聚类的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。