欢迎来到天天文库
浏览记录
ID:35060600
大小:3.94 MB
页数:76页
时间:2019-03-17
《基于位置子空间重采样的多分类器不平衡分类算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、EnsembleswithLocationbasedSubspaceResamplingforImbalancedPatternClassificationProblemsADissertationSubmittedfortheDegreeofMasterCandidate:RongTongwenSupervisor:Prof.WingW.Y.NgSouthChinaUniversityofTechnologyGuangzhou,China分类号:TP181学校代号:10561学号:201320130
2、334华南理工大学硕士学位论文基于位置子空间重采样的多分类器不平衡分类算法作者姓名:戎桐文指导教师姓名、职称:吴永贤教授申请学位级别:工学硕士学科专业名称:计算机科学与技术研究方向:人工智能与机器学习论文提交日期:2016年4月29日论文答辩日期:2016年6月3日学位授予单位:华南理工大学学位授予日期:年月日答辩委员会成员:主席:张星明委员:高英、吴永贤、陈琼、李家春摘要随着互联网通信和存储技术的高速发展,世界进入了大数据时代,随之而来的不平衡模式分类问题越来越受到关注。不平衡模式分类问题是指在一个
3、数据集中不同类别的样本间存在显著的数量差异,其中的少数类样本往往带有更多有价值的信息,但是由于数量较少且与多数类样本在特征空间上往往存在相互交叠的情况,难以被传统的分类器正确分类。多分类器算法在处理不平衡模式分类问题上有着不错的表现,其中基于随机欠采样方法的IRUS算法通过控制每个单量分类器的训练数据集中的多数类样本数量不大于少数类样本数量,以保证单量分类器对少数类样本有较高的分类准确率,同时使用bagging框架来保证最终分类器的泛化能力。同样基于随机欠采样方法的RUSBoost算法则是通过改变每轮
4、学习中单量分类器的训练数据集的样本分布来改变对应样本的权重,从而使得少数类样本在下一轮学习中有更大的概率被选入训练数据集。使用随机欠采样算法产生训练数据集,没有考虑样本在特征空间中的位置关系,难以确保所构造的训练数据集的差异性和有效性,进而难以确保最终分类器的分类性能。本文提出基于位置子空间重采样的LSR-Bagging/Boost两种多分类器算法框架。该重采样方法根据样本在特征空间中的位置将原始数据集划分为多个子空间集合,再从不同子空间中选取合适数量的样本构成训练数据集。在构造数据集时充分考虑该数据
5、集的有效性以及与其它数据集之间的差异性,因而能够为多分类器算法构造更加合理的训练数据集。进一步地,本文使用迭代量化哈希算法为原始数据集划分子空间,提出基于哈希划分的位置子空间重采样的HLSR-Bagging/Boost算法用于处理不平衡模式分类问题。相比IRUS和RUSBoost,HLSR-Bagging/Boost算法能够构造出更具差异性的训练数据集,同时保证单个数据集中包含足够多的有效样本。本文通过多个实验证明基于位置子空间重采样的多分类器算法在样本分布状况不同的多种数据集上的性能表现皆优于基于随
6、机欠采样的多分类器算法。关键词:不平衡模式分类问题,重采样方法,多分类器算法,位置子空间IAbstractWiththerapidlydevelopmentoftheInternetandstoragetechnologies,theamountofrawdatagrowsatanexplosiverateandimbalancepatternclassificationproblemshaveattractedmoreandmoreattentionsinrecentyears.Foranimbal
7、anceddataset,thenumbersofsamplesbelongingtosomeclassesareoftenmuchlargerthanthosebelongingtoothers.Inmanyoccasions,samplesinminorityclassesaremuchmoreimportantthanthoseinmajorityclassesandaredifficulttobecorrectlyclassifiedbytraditionalclassifiersbecaus
8、eoftheunderrepresenteddataandsevereclassdistributionskews.Recently,ensemblemethodshavebeenprovedtobeeffectiveforimbalancedpatternclassificationproblems.TheIRUS,basedonrandomundersampling(RUS),resamplesfewermajoritysamplesthanmino
此文档下载收益归作者所有