主动式半监督学习算法的研究论文

主动式半监督学习算法的研究论文

ID:33502176

大小:2.88 MB

页数:58页

时间:2019-02-26

主动式半监督学习算法的研究论文_第1页
主动式半监督学习算法的研究论文_第2页
主动式半监督学习算法的研究论文_第3页
主动式半监督学习算法的研究论文_第4页
主动式半监督学习算法的研究论文_第5页
资源描述:

《主动式半监督学习算法的研究论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学号:200911302005分类号:TP18硕士学位论文主动式半监督学习算法的研究研究生姓名:杨洋指导教师:王立宏学科门类:工科专业名称:计算机应用技术论文提交日期:2012-3-31烟台大学学位论文原创性声明和使用授权说明原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写过的作品或成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的法律结果由本人承担。论文作者签名:日期:年月日学位论文使用授权说明本人完全了解烟台大学关于收集、

2、保存、使用学位论文的规定,即:按照学校要求提交学位论文的印刷本和电子版本;学校有权保存学位论文的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在非保密的论文范围内,学校可以公布论文的部分或全部内容。(保密论文在解密后遵守此规定)论文作者签名:导师签名:日期:年月日烟台大学硕士学位论文摘要半监督学习是目前机器学习与数据挖掘的研究热点,通过较少的监督信息(如标注样本点或成对约束信息)和大量的未标注数据提供的数据分布信息,能对数据集内的点进行正确归类。大量研究表示,高质量的监督信息有助于聚类,而监督信息的选择不当可能会造成聚

3、类结果的下降,因此监督信息的选择得到人们的关注。本文将半监督学习与主动式学习相结合,通过主动获取高质量的监督信息来改善聚类的效果。主动式学习策略一方面通过获取具有最高信息量的点的类别,来加快学习过程;另一方面,通过确认一些不确定性较高的成对约束信息,也能快速提高归类效果。本文的工作大体分为三个部分:首先,提出了一种混合约束的半监督最近邻学习算法,标注点和成对约束信息以不同方式同时发挥作用,取得了较好的效果。在该算法中,标注点用于计算未标注点与各类别已知数据集之间的距离,而成对约束信息控制未标注点的类别分配过程。其次,提出了基于邻域不一致性的主动式学习策略,包括数据点的

4、学习和成对约束的学习两个方面。在数据点的学习中,提出了两种学习策略,即基于Citation-KNN的打分策略和基于桥点的学习策略并与另外两种算法进行了对比;在成对约束的学习中,提出了纠错式学习算法ALEC。通过实际数据集上的实验验证了以上学习策略的有效性。最后,对大数据集给出了预处理方法,通过提取骨架的方式得到数据集的代表点集合,在代表点集合上进行聚类后,对原数据集进行标注。初步实验表明,通过对原始数据集的压缩,可以在保持CRI稳定的同时大幅降低聚类所需的时间。关键词:半监督学习;主动式学习;学习策略I烟台大学硕士学位论文AbstractSemi-supervised

5、learningisahotspotinmachinelearninganddataminingnow.Withasmallamountofprioriknowledge(suchasthelabelleddataorpairwiseconstraints)andthedistributionofalargenumberofunlabelleddata,semi-supervisedlearningcanmakethedatapointsbeclassifiedcorrectly.Manystudiesindicatethatprioriknowledgecanhel

6、pustoimproveclusteringperformance,butatthesametime,becauseoftheimproperchoiceofsupervisoryinformation,itmaycauseadeclineinclusteringperformance,sothechoiceofsupervisoryinformationattractsageneralattention.Inthisdissertation,semi-supervisedlearningiscombinedwithactivelearningtoimprovethe

7、clusteringperformancebyimprovingthequalityofsupervisoryinformation.Ononehand,thelabelofdatapointwithhighestinformationmayacceleratetheclusteringprocess,ontheotherhand,confirmingthepairwiseconstraintswithhighuncertaintycanimprovetheresultsofclusteringquickly.Themainworkofthisdis

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。