半监督自训练方法的研究

半监督自训练方法的研究

ID:17263604

大小:2.51 MB

页数:56页

时间:2018-08-29

半监督自训练方法的研究_第1页
半监督自训练方法的研究_第2页
半监督自训练方法的研究_第3页
半监督自训练方法的研究_第4页
半监督自训练方法的研究_第5页
资源描述:

《半监督自训练方法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、馨考袁峰笟士f顼士学位论文半益赘令训蛛方法的所堯黎隽男指导教师:吕佳教授专业名称:软件工程研究方向:机器学习二〇一八年四月重庆师范大学硕士学位论文半监督自训练方法的研究硕士研究生:黎隽男指导教师:吕佳教授学科专业:软件工程所在学院:计算机与信息科学学院重庆师范大学二零一八年四月AThesisSubmittedtoChongqingNormalUniversityinPartialFulfillmentoftheRequirementsfortheDegreeofMasterResearchonSemi-supervisedself-train

2、ingMethodCandidate:LiJunNanSupervisor:LvJiaProfessorMajor:softwareengineeringCollege:CollegeofComputerandInformationScienceChongqingNormalUniversityApril,2018中文摘要半监督自训练方法的研究摘要传统的机器学习技术依赖于大量有标记样本进行训练,但是在实际应用中大量的有标记样本获取困难,相比之下,无标记样本廉价、容易获取。因此,只需要少量的有标记样本和充分利用大量无标记样本的半监督学习引起越来越多人关注。自训练方法作为半监督

3、学习方法中的一种,由于其简单有效,不需要特定的假设条件,得到了广泛的应用。然而自训练方法也存在着许多问题,比如:如何解决自训练方法误标记无样本的问题;自训练方法中置信度低样本利用率不足的问题;如何选取初始化自训练分类器的有标记样本集的问题;如何选取无标记样本给自训练方法迭代的学习,从而更好的提高自训练方法的泛化性的问题。针对这些问题,本文对自训练方法进行了研究,完成的主要工作如下:提出了一种结合主动学习和置信度投票的集成自训练方法。该方法用置信度投票结合的策略解决集成自训练算法如投票策略容易误标记离决策边界近的样本的问题;置信度策略容易误标记异构集成分类器预测类别不一致的样

4、本的问题;并且用主动学习策略解决了对于置信度低的样本,集成自训练分类器利用率不足的问题。在UCI数据集上的对比实验结果表明,该算法在性能上优于对比算法。提出了一种基于近邻密度和半监督KNN的集成自训练方法。该方法用近邻密度方法选取初始化的已标注样本,避免已标注样本周围k个近邻样本成为已标注候选集,这样使初始化的已标注样本间的距离尽量分散,具有更多信息量。为了提高数据剪辑的性能,用半监督KNN代替WKNN,弥补WKNN做数据剪辑的时候只考虑到了有标记样本对待测样本类别的影响,而没有利用待测样本周围的无标记样本的缺点,从而让数据剪辑技术更好的解决自训练方法误标记无标记的问题。最

5、后,通过在UCI数据集上的对比实验来验证了该算法的有效性。提出一种结合半监督聚类和数据剪辑的自训练方法。该方法在自训练方法每次迭代的时候,利用少量的有标记样本和大量的无标记样本进行半监督聚类,从而选出聚类隶属度高的无标记样本给NB分类,用这种策略选出的无标记样本比随机选出的无标记样本更具有代表性。然后该算法利用半监督数据剪辑技术来过滤掉聚类隶属度高,但是NB误分类的无标记样本,解决了自训练方法误标记样本的问题。在UCI数据集上,证明了该算法的有效性。关键词:半监督学习,自训练方法,数据剪辑,K近邻,聚类IResearchonSemi-supervisedself-train

6、ingMethodABSTRACTThetraditionalmachinelearningtechnologyreliesonalargenumberoflabeledsamplesfortraining.However,it’sdifficulttoobtainalargenumberoflabeledsamplesinpracticalapplication.Incontrast,unlabeledsamplesarecheapandeasytoget.Therefore,moreandmorepeopleareconcernedwithsemi-supervised

7、learningwhichcanmakefulluseofalargenumberofunlabeledsamplesandasmallnumberoflabeledsamples.Asakindofthesemi-supervisedlearningmethods,self-trainingmethodiswidelyusedbecauseit’ssimpleaswellaseffectiveanddoesnotneedspecificassumptions.However,selft-trainingmetho

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。