半监督自训练分类模型的研究与实现大连理工

半监督自训练分类模型的研究与实现大连理工

ID:34472039

大小:2.87 MB

页数:60页

时间:2019-03-06

半监督自训练分类模型的研究与实现大连理工_第1页
半监督自训练分类模型的研究与实现大连理工_第2页
半监督自训练分类模型的研究与实现大连理工_第3页
半监督自训练分类模型的研究与实现大连理工_第4页
半监督自训练分类模型的研究与实现大连理工_第5页
资源描述:

《半监督自训练分类模型的研究与实现大连理工》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、大连理工大学硕士学位论文半监督自训练分类模型的研究与实现姓名:丁涛申请学位级别:硕士专业:计算机软件与理论指导教师:孟军20091201大连理工大学硕士学位论文摘要半监督学习是近年来提出的一种新的学习方法,根据学习目的的不同大致可以分为半监督分类和半监督聚类。其主要思想是在已标记训练数据集较少的情况下,如何结合大量的未标记数据来改善学习性能。本文探讨的是半监督分类。主要针对半监督分类算法中典型的自训练分类算法进行了大量的研究与分析。针对自训练分类模型在初始阶段己标记训练集较少的情况,训练得到的分类器性能不高的事实,进行了适当的改进。即在自训练分类模型中引入了基于最近邻规则的数据剪

2、辑技术,试图辨别出在训练过程和分类过程中引入的误标记数据从而起到净化训练集的目的。在训练的迭代过程中使用该技术,辨别和清除噪音,净化训练集,提高分类准确率。本文的实验数据集采用UCI机器学习库中随机抽取的数据集。实验结果表明,引入该数据剪辑技术后的分类模型相对于原模型在分类准确率上有不同程度的提高,经过对实验数据进行分析总结,平均分类准确率提高了6.705%。本文还针对Tri.Trailling分类模型分类能力的局限性,进行了适当的改进。使用了一种基于不同分类器之间相互合作,利用投票选举的方式对未标记数据进行标记的模型。该模型针对传统的由Zhou等人提出的Tri.Training

3、分类模型利用相同分类器之间相互合作,投票选举的方式给出了改进模型。在基于不同分类器相互合作的同时,如同自训练分类模型的改进,同样引用了基于最近邻规则的数据剪辑技术,该技术旨在减少噪音数据净化训练集。实验数据集同样来自UCI机器学习库中随机抽取的数据集。通过实验表明,改进后的模型相对原模型在分类精度上有不同程度的改进,经过对实验数据进行分析总结,分类准确率有不同程度的提高。关键词:半监督分类;数据剪辑;自训练;未标记数据大连理工大学硕士学位论文ReseaurchaIldImplementationofSeIlli—SupervisedBasedSelf-TramillgC1assi

4、ficationModelAbstractSemi-SupervisedLeanlingisanewstud),ingmethodpmposediIlrccentyears.ItcanbediVidedno协,0categoriess锄i—sllpeⅣisedclass讯cationaIlds咖i—superviseddusteringrespectiVelyaccordingt0itsstlldyingpu印ose.nsmainideaisthathowc锄wecombinet置lelabeled仃aillingsetwimsmall肌mbera11dmeunlabeledon

5、eswitlllargenumbertoimproVethep娟mlallCeoftlleclassification.Wediscusss锄i-superVisedclaSsi丘cationmailllyint11ispaperandwemakealotofresearch觚d觚alysisonself-仃aillingalgorimmwhichisaclassicalgoritllmillseIIli-supeⅣisedd嬲si6cation.Weatt唧tto舀VeaIlimproV酣modelbaSedonmet11抽matwheIlininitialt11e仃ainin

6、gsetissosmalla11dmeclassifiefwegetcannotbesoaccuraCyaSwehaveeXpected.Wein仃oduceadataeditingtecllIliquematbasedonnearestneighbormlestoidentit),mewrong1abeledonesi11me仃ailling锄dclassi伽ngprocessinofdertop嘶矽tlle仃aillingset.WeeXploitnliste“queintheitefationprocessoft11e的i11ingt0id∞ti矽a11dreIIloVet

7、llenoisedata,puri矽the仃ainingset,improVet11eaccuracyoftheclaussmcation.Theexperimentdatasetsinmisp印erareselectedr趾domly丘.0mmeUCImachineleamingr印ository柚dⅡleresultshowsthattheclassificationaccuracyofmeimpr0VedoneareimproVeddi触ently.Accordingtom

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。