基于co_training的数据集重叠问题研究

基于co_training的数据集重叠问题研究

ID:32971893

大小:1.65 MB

页数:58页

时间:2019-02-18

基于co_training的数据集重叠问题研究_第1页
基于co_training的数据集重叠问题研究_第2页
基于co_training的数据集重叠问题研究_第3页
基于co_training的数据集重叠问题研究_第4页
基于co_training的数据集重叠问题研究_第5页
资源描述:

《基于co_training的数据集重叠问题研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中山大学硕士学位论文基于Co_training的数据集重叠问题研究姓名:周志轩申请学位级别:硕士专业:应用数学指导教师:张磊20090524中山大学硕士学位论文基于Co_.training的数据集重叠问题研究专业:应用数学硕士生:周志轩指导教师:张磊副教授摘要分类问题一直是机器学习和数据挖掘领域的重要问题之一。数据集的不平衡问题一度被视为影响分类效果的主要因素,学术界分别于2000年和2003年举行会议进行了讨论,学术成果相当丰富。但随着研究的深入,陆续有学者提出数据集的不平衡问题并不是影响分类效果的关键因素,而不同类别的样

2、本在样本空间上的重叠问题才是导致分类精度不高的主要原因。目前数据集重叠问题已逐渐成为新的研究热点,受到越来越多研究者的关注。现有的处理数据集的重叠问题的方法主要是选择性删除数据和特征提取。选择性删除数据的目的是找出数据集重叠的区域,并将该区域的样本删除,常用方法有DataClean和Edit。而利用特征提取算法处理数据集的重叠问题的研究目前还只停留在理论阶段。本文提出了两个处理数据集重叠问题的方法:基于离群点检测的处理方法,融合了TomekLinks和KNN两种传统方法,从样本集中找出最近邻类标与之相反的样本,然后利用KNN

3、方法判断其是否是离群点,若是,则将其删除。基于半监督学习法的处理方法,采用的是Cotraining方法。本文将这两种方法应用于UCI数据库中的数据集,并且与传统处理方法进行比较,相对于传统方法,本文提出的两种处理方法适用性较广且大多数情况下分类效果有较好的改进。关键词:数据集重叠离群点KNN神经网络Co_training中山大学硕’l:学位论文ResearchofOverlappingDataSetusingCo_trainingMajor:AppliedMathematicsName:ZhouZh改uallSupervis

4、or戈。of.es∞r办angLeiA

5、;oe,'aCeAbstractClassificationisOIleofthemostimportantproblemsofrmchinelearninganddatamining.Imbalameddatasetproblemwassaidtobeprincipalfactorforinflueneingclassification’Sresult.Thereweretwoacademicworkshopsholdfordiscussingimbalaneeddatasetpro

6、blemin2000and2003.ButilK)reandnloreresearcherspointoutthatdataset’Simbalaneedisnotthekeyreasonforclassifierwithbwaccuracybutdata’Soverlappingisafteraseriesexperiments.Atpresent,theproblemofdata’SoverlappinghasbecomeanincreasinglyhotBewstudyandhasattractedn】0reandme

7、reresearchers’attenti011.Therearetwomethodsoftenusedtodealwithdata’Soverlapping:deletedataoptionalandfeatureextraction.Deletedataoptionalisaimtofindtheareawheredata’SoverlappedanddeleteSOmedatasuitably.Fordeletingdata,therealetwoalgorithms:DataCleanandEdit.Featuree

8、xtractiontmybeagoodineaIlstodealwithitinthe如turebutcannotbeusejustnow.Inthispaper,webringforwardtwoprocessmethods:oneisbasisofoutlierdetection,itcombinestwotraditiomlmethods,TomekLinksandKNN,identifythesamplewhosenearestnerghborbelongstoadifferentclass,andthen,tode

9、terminewhethertheyareoutliersbasedontheKNNmethod,anddeleteoutliers;theotherisbasisofsemi-supervisedlearningalgorithm,usingCo_trainingmethod.Twome

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。