基于稀缺标记样本半监督学习的研究

基于稀缺标记样本半监督学习的研究

ID:34810095

大小:8.25 MB

页数:64页

时间:2019-03-11

基于稀缺标记样本半监督学习的研究_第1页
基于稀缺标记样本半监督学习的研究_第2页
基于稀缺标记样本半监督学习的研究_第3页
基于稀缺标记样本半监督学习的研究_第4页
基于稀缺标记样本半监督学习的研究_第5页
资源描述:

《基于稀缺标记样本半监督学习的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、IIIIIIUlIIIY2—1—————2———5——4——57UniversityofScienceandTechnologyofChinaAdissertationformaster’SdegreeSemi··supervisedLearningwithExtremelySparseLabeledDataAuthor’SName:LisongChenspeciality:Su[bupervlsor::111Finlstledtlme:ComputerApplicationProf.KeTangApril12m,2012中国科学技术大学学位论文

2、原创性声明本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成果。除己特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均己在论文中作了明确的说明。作者签名:强遂中国科学技术大学学位论文授权使用声明作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入《中国学位论文全文数据库》等有关数据库进行检索,可以采用影印、缩印或扫描等复制手

3、段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。,凶公开口保密(年)作者签名:叠遂导师签名:签字日期:二州摘要基于稀缺标记样本的半监督学习作为传统半监督学习的一个重要领域,主要研究当样本集中标记样本与未标记样本数量存在严重不平衡性时,如何获得优秀的鲁棒分类器的问题。区别于一般的半监督学习问题,稀缺标记样本环境中标记样本的数量特别有限,往往只占整个样本集总量的1%一5%,这种严重不平衡的数据结构使得传统半监督学习方法难于构造具备优秀泛化能力的分类器。目前解决稀缺标记样本学习问题的方法一般采取

4、传统的以标记样本为导向的学习策略。之前的研究成果表明,由于标记样本特别稀疏,这种思路在稀缺标记样本环境中并不可行。因此,为了进一步研究稀缺标记样本学习问题的特点并寻找更有效、更鲁棒的学习算法,本文从以下三个方面对基于稀缺标记样本的半监督学习提出了新的考量:稀缺标记样本学习问题的定义与度量。文章首先对稀缺标记样本学习问题提出了严格的数学描述。在此基础上,采取稀缺标记样本区域内曲线下面积(AUCLR)来度量学习算法的性能并给出其数学表达。采用以未标记样本为导向的方法。文章把稀缺标记样本半监督学习问题转化为一类特殊的无监督学习问题来处理。为了解决标记样

5、本特别稀疏的难点,文章提出基于近似判断的约束扩展算法和基于矩阵幂积的约束传播算法。在此基础上,文章进一步提出采用基于约束传播的谱聚类算法CopSC来构造基分类器。最后,文章运用约束集的两类不一致性理论对算法表现进行了理论推导和优化。实验验证了CopSC在稀缺标记样本环境中良好的算法表现。采用多重半监督假设。在处理稀缺标记样本学习问题时,基于单一半监督假设的算法鲁棒性表现较差。因此,文章提出同时利用全部三类半监督假设,并采用混合系数来控制其中单一假设的权值。实验表明文章提出的SS—CE3A算法在稀缺标记样本环境中具备优秀的泛化能力和鲁棒表现。关键词

6、:稀缺标记样本半监督学习约束扩展约束传播多重半监督假设ABSTRACTLearningwithextremelysparselabeleddata(LESLD),whichfocusonhowtogeneraterobustclassifierswhenlabeleddataandunlabeleddataaresignificantlyimbalanced,isanimportantapplicationoftraditionalsemi-supervisedlearning.Itshoulddealwithonly1%.5%labeledda

7、tatogetherwiththerestofabundantunlabeleddata.Existingsemi.supervisedlearningalgorithmsoftensufferfromthiskindofproblems.Previousstudiesmostlyusethelabeled-data—orientedstrategytohandlesparselabeleddata.whileempiricalstudiesdemonstratethatitdoesnotleadtosatisfactoryperformance

8、.Tohandlethischallengeissueofextremelysparselabeleddata,thispapercon

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。