欢迎来到天天文库
浏览记录
ID:38145577
大小:1.29 MB
页数:6页
时间:2019-05-25
《一种不平衡数据流集成分类模型》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第1期电子学报Vol.38No.12010年1月ACTAELECTRONICASINICAJan.2010一种不平衡数据流集成分类模型欧阳震诤1,罗建书1,胡东敏2,吴泉源2(1国防科技大学理学院,湖南长沙410073;2国防科技大学计算机学院,湖南长沙410073)摘要:针对不平衡数据流的分类问题,结合基于权重的集成分类器与抽样技术,本文提出了一种处理不平衡数据流集成分类器模型.理论分析与实验验证表明,该集成分类器具有更低的计算复杂度,更能适应存在概念漂移的不平衡数据流挖掘分类,其整体分类性能优于基于权
2、重的集成分类器模型,能明显提升少数类的分类精度.关键词:分类;集成分类器;不平衡数据流;概念漂移中图分类号:TP181文献标识码:A文章编号:03722112(2010)01018406AnEnsembleClassifierFrameworkforMiningImbalancedDataStreams1,LUOJianshu1,HUDongmin2,WUQuanyuan2OUYANGZhenzheng(1ScienceSchool,NationalUniversityofDefenseTec
3、hnology,Changsha,Hunan410073,China;2ComputerSchool,NationalUniversityofDefenseTechnology,Changsha,Hunan410073,China)Abstract:Manyrealworlddatastreamsminingapplicationsinvolvelearningfromimbalanceddatastreams,wheresuchapplicationsexpecttohaveahigherpredict
4、iveaccuracyovertheminorityclass,howevermostclassificationmodelassumerelativelybalanceddatastreams,theycannothandleimbalanceddistribution.Inthispaper,weproposeanovelensembleclassifierframework(IMDWE)forminingconceptdriftingdatastreamswithimbalanceddistribut
5、ionbyusingweightedensembleclassifierframeworksamplingtechniqueincludingoversamplingandundersampling.OurempiricalstudyshowsthattheIMDWEissuperiorandhaveimprovesboththeefficiencyinlearningthemodelandtheaccuracyinperformingclassificationovertheminorityclass.
6、Keywords:classification;ensembleclassifier;imbalanceddatastreams;conceptdrift前大部分分类方法虽然整体上具有较高的分类精度,可1引言[5]是对少数类的辨识率却很低,因此适当降低多数类的分类技术是数据流挖掘研究领域的重要课题,一个分类精度,以换取更高的少数类的分类精度就成为了不高效的数据流分类算法应能在有效处理概念漂移的同平衡数据流挖掘分类的主要目标.为能有效处理带概念时保持相当好的分类精度.近年来,研究人员在该领域漂移的不平衡数据流挖
7、掘分类问题,本文基于WE模做了大量卓有成效的工作,集成分类器方法是一种被广型,提出了一种不平衡数据流集成分类器模型IMDWE.[1]泛采用的方法,Wang等从理论上证明了集成分类器2相关工作的性能要优于单个分类器.在集成分类器方法中,基于权重的集成分类器方法(WeightEnsembleClassifier,简称21不平衡数据集分类的基本方法[1~4]WE)被普遍认为是具有较高分类精度的方法,它们在机器学习领域,鉴于不平衡学习分类的重要现实能很好的处理数据流分类中的概念漂移问题.然而,集意义,研究者对该问题
8、进行了大量研究,当前研究主要成分类器方法与目前多数数据流分类器的设计一样,它集中于数据层的处理、分类算法的改进、设计以及分类们是基于数据流中类的分布是大致平衡这一假设的,设器性能评价标准设计等几个方面.计者通常假定训练数据集中各类所包含的样本数大致从数据层面的处理方法来看,基本目标都是如何使相当,而这一基本假设在许多现实数据流应用问题中并得少数类与多数类的样本数趋于平衡,常用的方法是过不成立,不平衡
此文档下载收益归作者所有