最新半监督学习概论课件PPT.ppt

最新半监督学习概论课件PPT.ppt

ID:62114361

大小:850.50 KB

页数:40页

时间:2021-04-16

最新半监督学习概论课件PPT.ppt_第1页
最新半监督学习概论课件PPT.ppt_第2页
最新半监督学习概论课件PPT.ppt_第3页
最新半监督学习概论课件PPT.ppt_第4页
最新半监督学习概论课件PPT.ppt_第5页
资源描述:

《最新半监督学习概论课件PPT.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、半监督学习概论主要内容:传统学习面临的问题;半监督学习的提出;两个基本假设;半监督学习的常用算法;研究现状及发展引言传统机器学习分两类:监督学习、无监督学习监督学习仅仅利用已标签样本进行学习,因此对标记样本的数量要求较多;无监督学习仅仅是对未标记样本学习,不能保证精度。只使用少量有标记样本,训练出来的学习系统往往难具有很好的强泛化能力;另外,仅使用少量“昂贵的”标记样本而不利用“廉价的”未标记样本对数据资源是一种浪费。因此如何有效的同时利用两种样本进行学习被研究者关注。两个基本假设半监督学习问题从样本的角度而言是利用少量标注样

2、本和大量未标注样本进行机器学习,从概率学习角度可理解为研究如何利用训练样本的输入边缘概率P(x)和条件输出概率P(y

3、x)的联系设计具有良好性能的分类器。这种联系的存在是建立在某些假设的基础上的,即聚类假设(clusterassumption)和流形假设(manifordassumption)。聚类假设:是指处在相同聚类中的样本示例有较大的可能拥有相同的标记。根据该假设,决策边界就应该尽量通过数据较为稀疏的地方,从而避免把稠密的聚类中的数据点分到决策边界两侧。在这一假设下,大量未标记样本的作用就是帮助探明样本空间中数据分布的稠

4、密和稀疏区域,从而指导学习算法对利用有标记样本学习到的决策边界进行调整,使其尽量通过数据分布的稀疏区域。流形假设:是指处于一个很小的局部区域内的示例具有相似的性质,因此,其标记也应该相似。这一假设反映了决策函数的局部平滑性。和聚类假设着眼整体特性不同,流形假设主要考虑模型的局部特性。在该假设下,大量未标记示例的作用就是让数据空间变得更加稠密,从而有助于更加准确地刻画局部区域的特性,使得决策函数能够更好地进行数据拟合。半监督学习的常用算法半监督学习算法按照不同的模型假设,可以大致将现有的半监督学习算法分为五类:自学习(Self-

5、training)基于生成模型的方法(EMwithgenerativemixturemodels)协同训练(Co-training)直推式支持向量机(TransductiveSupportVectorMachines)基于图的方法(Graph-basedmethods)自学习自学习要表达的核心思想是在分类器递归拟合的时候,每次递归仅将满足设定的置信度阈值的即置信度高的样本纳入到已标记样本集中,参与递归拟合。算法流程:Step1:用已标记的样本来训练得到一个初始分类器;Step2:用初始分类器对未标记样本进行分类,将标记置信度高

6、的未标记样本进行标记;Step3:对所有样本进行重新训练,直到将所有未标记样本都标记为止。缺点:自训练算法是一个包装算法,没有实用性,一般来说很难分析。协同训练算法此类算法隐含地利用了聚类假设或流形假设,它们使用两个或多个学习器,在学习过程中,这些学习器挑选若干个置信度高的未标记示例进行相互标记,从而使得模型得以更新。最早提出Co-training的是A.Blum和T.Mitchell。之后分别经过两次改进,南大周志华贡献很大。该算法的一个显著特点是使用了三个分类器,不仅可以简便地处理标记置信度估计问题以及对未见示例的预测问题

7、,还可以利用集成学习(ensemblelearning)[Dietterich00]来提高泛化能力。算法流程:步骤一:对标记样本进行可重复取样以获得三个有标记样本集,从每个样本集训练出一个分类器。步骤二:在协同训练过程中,各分类器所获得的新标记示例都由其余两个分类器协作提供,具体来说,如果两个分类器对同一个未标记示例的预测相同,则该示例就被认为具有较高的标记置信度,并在标记后被加入第三个分类器的有标记训练集。以便对方利用这些新标记的示例进行更新。基于图的方法此类算法直接或间接地利用了流形假设,在基于图的方法中,首先是构造一个图

8、,图由顶点和边组成,其中顶点代表样本,边是有权值的,其大小代表样本间的相似性程度。基于图的半监督分类算法是通过构造一个满足下面两个条件的函数F:首先,对于样本标签数据,F必须可以对其进行正确分类;其次,对于未标签数据,F也应该能够让类别标签在整个图上具有平滑性。生成式模型算法以生成式模型为分类器,将未标记示例属于每个类别的概率视为一组缺失参数,然后采用EM算法来进行标记估计和模型参数估计。EM算法的贪心本质使其容易陷入局部极值,因此算法对初始值的选择具有很强的依赖性.常用的解决方法是采用多组初值进行重复运算,并从中选择最好的一

9、组解,或者通过复杂的优化算法(如分裂合并EM算法)获取参数的优化解.这些做法尽管降低了对初始值选择的敏感性,但却引入了过多的运算负担。对分类器进行拟合本质上是确定每一个类别的生成函数,或者说找出生成函数的参数,对于自然分布来说,即要求出各类别生成函数的均值和协方差矩阵。这里的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。