基于集成半监督学习的标签噪声研究

基于集成半监督学习的标签噪声研究

ID:33683213

大小:5.45 MB

页数:70页

时间:2019-02-28

基于集成半监督学习的标签噪声研究_第1页
基于集成半监督学习的标签噪声研究_第2页
基于集成半监督学习的标签噪声研究_第3页
基于集成半监督学习的标签噪声研究_第4页
基于集成半监督学习的标签噪声研究_第5页
资源描述:

《基于集成半监督学习的标签噪声研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要集成学习作为一种新的机器学习范式,它使用多个学习器来解决同一个问题,能够显著地提高学习系统的泛化能力,以其优良的特性,广泛的应用于多个领域。然而集成学习技术还不成熟,集成学习的研究还存在着大量未解决的问题。如何解决在标签噪声环境下的学习问题,以及如何提高集成半监督学习系统性能。针对这些问题,本文在经典算法AdaBoost的基础上,对标签噪声学习和协同训练学习进行了研究,并通过应用于实际问题,深入探讨了自己的理解和方法。本文的主要研究工作阐述如下:(1)针对AdaBoost算法对标签噪声数据的敏感性,本文首先通过理论分析AdaBoost对标签噪声数据敏

2、感的原因,然后结合标签噪声的特点,提出了Knn.AdaBoost标签噪声抑制算法。Knn.AdaBoost算法预先通过Knn计算每个训练样本的噪声因子,然后结合噪声因子提出了一个新的样本权值更新策略。实验采用多组UCI数据集和文本数据集,测试结果表明,Knn.AdaBoost相比原算法具有较好的分类精度,充分说明了新的样本权值更新策略的有效性。(2)在第三章方法的基础上,提出一种集成半监督ASSEMBLE.KnnAdaBoost标签噪声抑制算法,该算法解决了两个重要问题,其一是如何很好的区分训练集中的标签噪声样本和正确样本;其二是如何有效的加入未标记样本

3、,不断完善分类决策边界。实验部分也采用了多组UCI数据集和数字手写数据集,在不同未标记样本比例下来验证了新算法较比其它对比算法的有效性。(3)针对传统协同训练学习两个条件难以同时满足的问题,本文结合协同训练算法Co-Forest的思想和Boosting的样本权重策略,提出了一种新的多分类器协同训练算法Co.RotBoost,该算法通过PCA对数据集的旋转得到基分类器的多样性,同时在训练过程中引入了Boosting的策略去注重那些难分的样本点,最后通过多个分类器共同决策未标记样本的类别,挑选置信度高的未标记样本。实验表明,Co—RotBoost算法具有很好

4、的分类性能和较快的算法收敛速度。关键词:集成学习Boosting标签噪声协同学习半监督学习Abs仃actIIIAbstractEnsemblelearningisanewmachinelearningparadigm.Itcallsignificantlyimprovethegeneralizationabilityoflearningsystemsthroughutilizingmultiplelearnerstosolveaproblem.Becauseofitsgoodcharacteristic,ithassuccessfullyappliedi

5、nmanyfields.Howerver,ensemblelearningtechniqueisnotmature,andthereexistmanyproblemsunsolvedonitsresearch,howtolearningunderthenoisyenvironment,andhowtoimprovetheperformanceofensemblesemi—supervisedlearningalgorithm.ThispaperdescribestheAdaBoostalgorithmmodelandtheideaoftheAdaBoos

6、talgorithm.ThemainworkofthispapercontainlabelnoisydatalearningandCO—trainingbasedAdaBoostwithsomepracticalproblems.ThemainresearchworkiSdescribedasfollows:(1)FocusingontheproblemthatAdaBoostisquitesensitivetolabelnoisydata.First,thispapertheoryanalyzethereasonoftheproblem,thenacc

7、ordingtothecharacteristicoflabelnoisydata,anewalgorithmKnn-AdaBoostisproposed.ThenewalgorithmuseKnntocomputethenoisyfactorofeachinstance,andthenuseanewinstanceweightupdatescheme.ExperimentuselotsofUCIdatasetsandtextdataset,theresultshowsthatitsaccuracyinmuchbetterthanothertraditi

8、onalalgorithms',whichfullyillustratesthe

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。