欢迎来到天天文库
浏览记录
ID:55318872
大小:345.48 KB
页数:4页
时间:2020-05-14
《结合主动学习策略的半监督分类算法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第32卷第8期计算机应用研究V0l_32No.82015年8月ApplicationResearchofComputersAug.2015结合主动学习策略的半监督分类算法赵建华,刘宁(1.西北工业大学计算机学院,西安710072;2.商洛学院a.数学与计算机应用学院;b.经济与管理学院,陕西商洛726000)摘要:为了提高半监督分类的性能,提出一种基于主动学习策略的半监督分类算法SSC—AL和一种基于改进的主动学习策略的半监督分类算法SSC—IAL。通过样本密度计算,改进基于投票熵的主动学习算法,减少主动学习过程中可能产生的孤立点和冗余点;分别使用主动学习策略和改进的主动学习策略挑选信
2、息价值高的无标记样本作为候选样本,使用半监督学习算法对候选样本进行自动标记,减少人工干预。最后,把新增加的新标记样本添加到主动学习和半监督学习的训练集中,训练各自分类器,反复迭代。使用UCI数据集进行实验,结果表明SSC—AL和SSC-IAL算法将问题规模缩减到原来的11%和17%,SSC.IAL分类率提高了1.41%,并且算法的收敛性良好。关键词:半监督分类;主动学习;投票熵;样本密度中图分类号:TP181文献标志码:A文章编号:1001.3695(2015)08—2295.04doi:10.3969/j.issn.1001—3695.2015.08.013Semi—supervis
3、edclassificationalgorithmbasedonactivelearningstrategiesZhaoJianhua'.LiuNing(1.CollegeofComputer,NorthwesternPolytechnicalUniversity,Xi’an710072,China;2.a.SchoolofMathematics&ComputerApplication,b.SchoolofEconomics&Management,ShangluoUniversity,ShanghtoShaanxi726000,China)Abstract:Inordertoimpro
4、vetheperformanceofsemi—supervisedclassifier,thispaperproposedakindofsemi—supervisedclassificationalgorithmSSCALbasedonactivelearningandakindofsemisupervisedclassificationalgorithmSSCIALbased——onimprovedactivelearning.Then,bycalculatingthesampledensity,itimprovedtheactivelearningstrategiesbasedvo
5、teen—tropytoreducetheisolatedpointsandredundantpointsgeneratingintheprocessofactivelearning.usedtheactivelearningstrategiesandtheimprovedactivelearningstrategiestoselectunlabeledsampleswithhighinformationvalueasthecandidatesamples,labeledbyCV-S3VMautomatically.Itrepeatedtheiterationuntilmeetingc
6、ertainprecision.Finally,itcarriedoutexperimentonUCIdataset.Theresultsshownproblemscaleisreducedto11%and17%bySSC—ALandSSC—IAL.theclassi-ficationrateofSSC—IALincreasedby1.41%.Bothofthemhadgoodconvergence.Keywords:semi-supervisedclassification;activelearning;voteentropy;densityofsamples文献[8]仅仅利用主动学
7、习中挑选样本的方法来指导协0引言同训练算法Co.training中新增样本的挑选过程,不需要对主动学习选取的样本进行人工标记。通过定义无标记样本的条件主动学习和半监督学习面临相同的问题和挑战,都是利用价值,通过协同训练挑选新增样本,更新训练集。但是该方法无标记样本构建高精确的分类器,减少人工对未标记样本标记在定义样本的条件价值时,需预先知道样本的标记。本文采用的工作量。它们的主要差别在于:a)半监督学习通过算法实给未标记样本进行伪标记的方法来计
此文档下载收益归作者所有