欢迎来到天天文库
浏览记录
ID:9129204
大小:126.71 KB
页数:12页
时间:2018-04-18
《基于近邻密度和半监督knn的集成自训练方法》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、基于近邻密度和半监督KNN的集成自训练方法黎隽男吕佳重庆师范大学计算机与信息科学学院针对集成自训练算法随机初始化有标记样本容易在迭代屮局部过拟合,不能很好的泛化到样本原始空间结构和集成自训练算法用WKNN分类器做数据剪辑时没有考虑到无标记样本对待测样本类别判定有影响的问题,本文提出结合近邻密度和半监督KNN的集成自训练算法。该算法用近邻密度方法选取初始化的已标注样本,避免己标注样本周围k个近邻样本成为己标注候选集。这样使初始化的己标注样本间的距离从量分散,以更好的反应样本原始空间结构。同时在己标注样本候选集中选取密度最大的样本作为已标注样本。为了
2、提高数据剪辑的性能,用半监督KNN代替WKNN,弥补WKNN做数据剪辑的时候只考虑到了有标记样本对待测样木类别的影响,而没有利用待测样木周围的无标记样木的问题,在UCI数据集上的对比实验验证了提出算法的有效性。关键词:集成自训练;近邻密度;半监督;KNN;基金:重庆市科委科研项目(No.cstc2014jcyjA40011)Integratedself-trainingmethodbasedonneighborhooddensityandsemi-supervisedKNNLIJunnanLVJiaCollegeofComputerScience
3、,ChongqingNormalUniversity;Abstract:Integratedself-trainingalgorithmisapttolocallyoverfitduringiterationwhenitisusedtorandomlyinitializelabeledsamples,whichleadstopoorgeneralizationtotheoriginalsamplespacestructure.Additionally,integratedself-trainingalgorithmwithWKNNclassifi
4、er,whichisadoptedtoeditdata,doesn’ttakeintoaccounttheunlabeledsamples'effectonclasslabelsoftestsamples.Thus,anintegratedself-trainingalgorithmbasedonnearestneighbordensityandsemi-supervisedKNNisproposedinthispaper.Thealgorithmusesthenearestneighbordensitytoselecttheinitiallyl
5、abeledsamplestoavoidchoosingKnearestneighborsamplesaroundlabeledsamplesaslabeledsamplecandidates,sothedistributionoftheselectivesampleswillbedecentralizedanditcanbetterreflectthesamplespacestructure.Atthesametime,inordertoimprovetheperformanceofdataclips,semi-supervisedKNNisu
6、sedintothealgorithminsteadofWKNN.Ttchoosestheunlabeledsampleswiththehighestdensityasthelabeledsamplessothatitcanmakefulluseofunlabeledsamples.TheeffectivenessofthepresentedalgorithmisverifiedbycomparativeexperimentsonUCIdatasets.Keyword:integratedself-training;nearestneighbor
7、density;semi-supervised;KNN;1引言集成自训练算法[1]是集成学>』[2]和自训练[3,4]结合的半监督学>』[5]框恕。与其它半监督学习方法相比,它不需要苛刻的假设条件,因此受到丫广大学者的青睐,但是如何在集成自训练算法中选取可靠的样本加入到训练集中一直是半监督学习中的热点问题。部分学者通过采取置信度的方法选择可靠的样木,MFAHadyM提出Co-TrainingbyCommittee集成自训练学框兜,该方法集成多个分类器共同进行自训练学习,其屮置信度为多个分类器的平均后验概率。由于在选取最大后验概率时,可能出现重复的
8、最大后验概率问题,文献[7,8]对此做了相应的改进。文献[7]引入了NaiveBayes(NB)最大后验概率取平均后验概率与NB后验概率
此文档下载收益归作者所有