基于近邻密度和半监督knn的集成自训练方法

基于近邻密度和半监督knn的集成自训练方法

ID:9129204

大小:126.71 KB

页数:12页

时间:2018-04-18

基于近邻密度和半监督knn的集成自训练方法_第1页
基于近邻密度和半监督knn的集成自训练方法_第2页
基于近邻密度和半监督knn的集成自训练方法_第3页
基于近邻密度和半监督knn的集成自训练方法_第4页
基于近邻密度和半监督knn的集成自训练方法_第5页
资源描述:

《基于近邻密度和半监督knn的集成自训练方法》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、基于近邻密度和半监督KNN的集成自训练方法黎隽男吕佳重庆师范大学计算机与信息科学学院针对集成自训练算法随机初始化有标记样本容易在迭代屮局部过拟合,不能很好的泛化到样本原始空间结构和集成自训练算法用WKNN分类器做数据剪辑时没有考虑到无标记样本对待测样本类别判定有影响的问题,本文提出结合近邻密度和半监督KNN的集成自训练算法。该算法用近邻密度方法选取初始化的已标注样本,避免己标注样本周围k个近邻样本成为己标注候选集。这样使初始化的己标注样本间的距离从量分散,以更好的反应样本原始空间结构。同时在己标注样本候选集中选取密度最大的样本作为已标注样本。为了

2、提高数据剪辑的性能,用半监督KNN代替WKNN,弥补WKNN做数据剪辑的时候只考虑到了有标记样本对待测样木类别的影响,而没有利用待测样木周围的无标记样木的问题,在UCI数据集上的对比实验验证了提出算法的有效性。关键词:集成自训练;近邻密度;半监督;KNN;基金:重庆市科委科研项目(No.cstc2014jcyjA40011)Integratedself-trainingmethodbasedonneighborhooddensityandsemi-supervisedKNNLIJunnanLVJiaCollegeofComputerScience

3、,ChongqingNormalUniversity;Abstract:Integratedself-trainingalgorithmisapttolocallyoverfitduringiterationwhenitisusedtorandomlyinitializelabeledsamples,whichleadstopoorgeneralizationtotheoriginalsamplespacestructure.Additionally,integratedself-trainingalgorithmwithWKNNclassifi

4、er,whichisadoptedtoeditdata,doesn’ttakeintoaccounttheunlabeledsamples'effectonclasslabelsoftestsamples.Thus,anintegratedself-trainingalgorithmbasedonnearestneighbordensityandsemi-supervisedKNNisproposedinthispaper.Thealgorithmusesthenearestneighbordensitytoselecttheinitiallyl

5、abeledsamplestoavoidchoosingKnearestneighborsamplesaroundlabeledsamplesaslabeledsamplecandidates,sothedistributionoftheselectivesampleswillbedecentralizedanditcanbetterreflectthesamplespacestructure.Atthesametime,inordertoimprovetheperformanceofdataclips,semi-supervisedKNNisu

6、sedintothealgorithminsteadofWKNN.Ttchoosestheunlabeledsampleswiththehighestdensityasthelabeledsamplessothatitcanmakefulluseofunlabeledsamples.TheeffectivenessofthepresentedalgorithmisverifiedbycomparativeexperimentsonUCIdatasets.Keyword:integratedself-training;nearestneighbor

7、density;semi-supervised;KNN;1引言集成自训练算法[1]是集成学>』[2]和自训练[3,4]结合的半监督学>』[5]框恕。与其它半监督学习方法相比,它不需要苛刻的假设条件,因此受到丫广大学者的青睐,但是如何在集成自训练算法中选取可靠的样本加入到训练集中一直是半监督学习中的热点问题。部分学者通过采取置信度的方法选择可靠的样木,MFAHadyM提出Co-TrainingbyCommittee集成自训练学框兜,该方法集成多个分类器共同进行自训练学习,其屮置信度为多个分类器的平均后验概率。由于在选取最大后验概率时,可能出现重复的

8、最大后验概率问题,文献[7,8]对此做了相应的改进。文献[7]引入了NaiveBayes(NB)最大后验概率取平均后验概率与NB后验概率

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。