周志华-机器学习-西瓜书-全书16章-ppt-ch13半监督学习课件.ppt

周志华-机器学习-西瓜书-全书16章-ppt-ch13半监督学习课件.ppt

ID:57391575

大小:2.61 MB

页数:52页

时间:2020-08-15

周志华-机器学习-西瓜书-全书16章-ppt-ch13半监督学习课件.ppt_第1页
周志华-机器学习-西瓜书-全书16章-ppt-ch13半监督学习课件.ppt_第2页
周志华-机器学习-西瓜书-全书16章-ppt-ch13半监督学习课件.ppt_第3页
周志华-机器学习-西瓜书-全书16章-ppt-ch13半监督学习课件.ppt_第4页
周志华-机器学习-西瓜书-全书16章-ppt-ch13半监督学习课件.ppt_第5页
资源描述:

《周志华-机器学习-西瓜书-全书16章-ppt-ch13半监督学习课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、陈加略第十三章:半监督学习背景(半监督学习)隔壁老王品瓜师吃背景(半监督学习)品瓜师吃模型有标记样本无标记样本直推学习(纯)半监督学习待测数据背景(主动学习)品瓜师吃背景(主动学习)品瓜师吃主动学习待测数据模型有标记样本无标记样本标注者未标记样本的效用未标记样本的假设要利用未标记样本,必然要做一些将未标记样本所揭示的数据分布信息与类别标记相联系的假设,其中有两种常见的假设。聚类假设(clusteringassumption):假设数据存在簇结构,同一簇的样本属于同一类别。流形假设(manifol

2、dassumption):假设数据分布在一个流形结构上,邻近的样本具有相似的输出值。流形假设可看做聚类假设的推广大纲未标记样本生成式方法半监督SVM图半监督学习基于分歧的方法半监督聚类生成式方法假设样本由这个假设意味着混合成分高斯混合模型生成,且每个类别对应一个高斯混合成分:其中,生成式方法由最大化后验概率可知:生成式方法假设样本独立同分布,且由同一个高斯混合模型生成,则对数似然函数是:生成式方法高斯混合的参数估计可以采用EM算法求解,迭代更新式如下:E步:根据当前模型参数计算未标记样本属于各高

3、斯混合成分的概率。生成式方法M步:基于更新模型参数生成式方法将上述过程中的高斯混合模型换成混合专家模型,朴素贝叶斯模型等即可推导出其他的生成式半监督学习算法。此类方法简单、易于实现,在有标记数据极少的情形下往往比其他方法性能更好。然而,此类方法有一个关键:模型假设必须准确,即假设的生成式模型必须与真实数据分布吻合;否则利用未标记数据反而会显著降低泛化性能。大纲未标记样本生成式方法半监督SVM图半监督学习基于分歧的方法半监督聚类半监督SVM半监督SVM半监督支持向量机中最著名的是TSVM(Tran

4、sductiveSupportVectorMachine)半监督SVMTSVM采用局部搜索来迭代地寻找近似解.无标记样本有标记样本SVM0伪标记SVM1训练训练训练标注半监督SVMSVM1无标记样本搜索指派可能出错的样本交换样本标记有标记样本训练训练SVM2半监督SVM未标记样本的伪标记不准确半监督SVM未标记样本进行标记指派及调整的过程中,有可能出现类别不平衡问题,即某类的样本远多于另一类。为了减轻类别不平衡性所造成的不利影响,可对算法稍加改进:将优化目标中的项拆分为与两项,并在初始化时令:半

5、监督SVM显然,搜寻标记指派可能出错的每一对未标记样本进行调整,仍是一个涉及巨大计算开销的大规模优化问题。因此,半监督SVM研究的一个重点是如何设计出高效的优化求解策略。例如基于图核(graphkernel)函数梯度下降的LaplacianSVM[ChapelleandZien,2005]、基于标记均值估计的meanS3VM[Lietal.,2009]等.大纲未标记样本生成式方法半监督SVM图半监督学习基于分歧的方法半监督聚类图半监督学习给定一个数据集,我们可将其映射为一个图,数据集中每个样本对

6、应于图中一个结点,若两个样本之间的相似度很高(或相关性很强),则对应的结点之间存在一条边,边的“强度”(strength)正比于样本之间的相似度(或相关性)。我们可将有标记样本所对应的结点想象为染过色,而未标记样本所对应的结点则尚未染色.于是,半监督学习就对应于“颜色”在图上扩散或传播的过程。由于一个图对应了一个矩阵,这就使得我们能基于矩阵运算来进行半监督学习算法的推导与分析。图半监督学习我们先基于构建一个图,其中结点集边集E可表示为一个亲和矩阵(affinitymatrix),常基于高斯函数定

7、义为:图半监督学习假定从图将学得一个实值函数。直观上讲相似的样本应具有相似的标记,即得到最优结果于是可定义关于f的“能量函数”(energyfunction)[Zhuetal.,2003]:图半监督学习采用分块矩阵表示方式:由可得:图半监督学习图半监督学习上面描述的是一个针对二分类问题的“单步式”标记传播(labelpropagation)方法,下面我们来看一个适用于多分类问题的“迭代式”标记传播方法[Zhouetal.,2004].仍基于构建一个图其中结点集定义一个的非负标记矩阵,其第i行元素

8、为示例的标记向量,相应的分类规则为:将F初始化为:图半监督学习基于W构造一个标记传播矩阵,其中,于是有迭代计算式:基于迭代至收敛可得:图半监督学习事实上,算法对应于正则化框架[Zhouetal.,2004]:当时,最优解恰为迭代算法的收敛解。图半监督学习图半监督学习图半监督学习方法在概念上相当清晰,且易于通过对所涉矩阵运算的分析来探索算法性质。但此类算法的缺陷也相当明显.首先是在存储开销高。另一方面,由于构图过程仅能考虑训练样本集,难以判知新样本在图中的位置,因此,在接收到新样本时,或是将其加入

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。