基于主动半监督学习的不均衡数据集分类问题的研究

基于主动半监督学习的不均衡数据集分类问题的研究

ID:36422028

大小:7.69 MB

页数:58页

时间:2019-05-10

基于主动半监督学习的不均衡数据集分类问题的研究_第1页
基于主动半监督学习的不均衡数据集分类问题的研究_第2页
基于主动半监督学习的不均衡数据集分类问题的研究_第3页
基于主动半监督学习的不均衡数据集分类问题的研究_第4页
基于主动半监督学习的不均衡数据集分类问题的研究_第5页
资源描述:

《基于主动半监督学习的不均衡数据集分类问题的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、厦门大学学位论文原创性声明本人呈交的学位论文是本人在导师指导下,独立完成的研究成果。本人在论文写作中参考其他个人或集体已经发表的研究成果,均在文中以适当方式明确标明,并符合法律规范和《厦门大学研究生学术活.动规范(试行)》。另外,该学位论文为()课题(组)的研究成果,获得()课题(组)经费或实验室的资助,在()实验室完成。(请在以上括号内填写课题或课题组负责人或实验室名称,未有此项声明内容的,可以不作特别声明。)声明人(签名).瞎豇l幻沙哆年口罗月≥9日。l㈣嬲厦门大学学位论文著作权使用声明本人同意厦门大学根据《中华人民共和国学位条例暂行实施办法》等规定保留

2、和使用此学位论文,并向主管部门或其指定机构送交学位论文(包括纸质版和电子版),允许学位论文进入厦门大学图书馆及其数据库被查阅、借阅。本人同意厦门大学将学位论文加入全国博士、硕士学位论文共建单位数据库进行检索,将学位论文的标题和摘要汇编出版,采用影印、缩印或者其它方式合理复制学位论文。本学位论文属于:()1.经厦门大学保密委员会审查核定的保密学位论文,于年月日解密,解密后适用上述授权。()2.不保密,适用上述授权。(请在以上相应括号内打“√”或填上相应内容。保密学位论文应是已经厦门大学保密委员会审定过的学位论文,未经厦门大学保密委员会审定的学位论文均为公开学位

3、论文。此声明栏:不填写的,默认为公开学位论文,均适用上述授权。)声明人(签名).霈丑I虱Ⅵ哆年口咱弓口日摘要随着计算机存储技术和人工智能领域的发展,不均衡的数据集的研究越来越受到研究人员的关注。近年来,机器学习和数据挖掘领域常见的分类方法和采样技术针对传统的类别平衡的数据集有较好的分类效果,在不均衡数据集的条件下,少数类常被误分成多数类。主动学习和半监督学习都是利用少量标记样本和大量未标记样本的学习技术,利用大量未标记样本学习不仅能减小对未标记样本的标记代价,而且可以增强分类器的泛化能力。本文尝试着运用主动学习思想和半监督学习方法相结合,提出了~种主动半监督

4、协同分类算法(ActiveSemi—supervisedLearningCollaborationClassificationAlgorithm,简称ASCC算法)。该算法通过主动学习方法增加已标记样本的数量,满足了Tri.training算法训练所需足够的标记样本数量,从而减:少协同训练学习所需要的次数和时间。基于以上提出的方法,本文的主要工作如下:(1)在己知少量的标记样本和大量的未标记样本的数据集的情况下,提出了基于样本KNN分布概率模型的主动学习算法。这种方法利用KNN的思想构造己标记和待标记样本之间的联系,通过这种联系建立概率模型,然后借助于基尼指

5、数的专家评价标准,给出相对可能被标记的待标记样本。(2)针对传统的Tri.training算法在处理不均衡数据集分类的:不足,我们在训练样本的抽样、分类器的选择以及在最后的分类器集成方面对Tri.training算法做出了相应改进。通过UCI上不均衡数据验证了改进算法的有效性。(3)针对少量已标记和大量未标记且是不均衡数据集的分类的问题,结合(1)和(2)中的方法,提出了基于改进的Tri-training的主动半监督协同训练学习算法。UCI上的不均衡数据集的实验结果表明,所提出的ASCC算法与以往算法相比有一定的性能提高,且表现出了一定的稳定性。关键词:不均

6、衡数据集;主动学习;半监督协同分类;Tri-training算法;差异性;AbstractWiththedevelopmentofthecomputerstoragetechnologyandartificialintelligence,theresearchonimbalanceddatasetshasgotmoreattentionfromresearchers.Thecommonalgorithmsorsamplingtechniquesofmachinelearninganddatamininghavegoodclassificationresult

7、sagainsttothedatasetsofthetraditionalcategoriesbalancerecently.Undertheconditionsofsomeimbalanceddatasets,minorityclassesareoRenincorrectlydividedintothemajorityclasses.Bothactivelearningandsemi-supervisedlearningaretechniquesofusingasmallamountoflabeledsamplesandalargenumberofunla

8、beledsamples.Thelearningte

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。