欢迎来到天天文库
浏览记录
ID:54017903
大小:1010.33 KB
页数:6页
时间:2020-04-28
《基于BSMOTE和逆转欠抽样的不均衡数据分类算法.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、第31卷第11期计算机应用研究Vol.31No.112014年11月ApplicationResearchofComputersNov.2014基于BSMOTE和逆转欠抽样的不均衡数据分类算法陈睿,张亮,杨静,胡荣贵(解放军电子工程学院网络系,合肥230037)摘要:针对传统分类器在数据不均衡的情况下分类效果不理想的缺陷,为提高分类器在不均衡数据集下的分类性能,特别是少数类样本的分类能力,提出了一种基于BSMOTE和逆转欠抽样的不均衡数据分类算法。该算法使用BSMOTE进行过抽样,人工增加少数类样本的数量,然后通过优先去除样本中的冗余和噪声样本,使用逆转欠抽样方法逆
2、转少数类样本和多数类样本的比例。通过多次进行上述抽样形成多个训练集合,使用Bagging方法集成在多个训练集合上获得的分类器来提高有效信息的利用率。实验表明,该算法较几种现有算法不仅能够提高少数类样本的分类性能,而且能够有效提高整体分类准确度。关键词:不均衡数据集;边界少数类样本合成过抽样技术;逆转欠抽样技术;多分类器集成中图分类号:TP301.6;TP391文献标志码:A文章编号:10013695(2014)11329905doi:10.3969/j.issn.10013695.2014.11.023Classificationalgorithmforimb
3、alanceddatasetsbasedoncombinationofBSMOTEandinverseundersamplingCHENRui,ZHANGLiang,YANGJing,HURonggui(Dept.ofNetwork,PLAElectronicEngineeringInstitute,Hefei230037,China)Abstract:Theresultofclassicalclassificationalgorithmsinthecaseofimbalanceddatasetsisnotsatisfactory.Inordertoimprove
4、theclassificationperformanceunderimbalanceddatasets,especiallytheclassificationabilityoftheminorityclass,thispaperpresentedanovelclassificationalgorithmforimbalanceddatasetsbasedoncombinationofbordersyntheticminorityoversamplingtechnique(BSMOTE)andinverseundersampling.ItusedBSMOTEtoin
5、creasethesamplenumberofminorityclass,andthenusedainverseundersamplingmethodtoinversethecardinalitiesofthemajorityandminorityclassratiothroughremovingthesamplesofredundantandnoisesamplefirstly.Bysamplingseveraltimes,itcreatedalargenumberofdistincttrainingsets.ItusedBaggingmethodtoensembl
6、etheclassifierstrainedonthosedatasetstoimprovetheefficientuseoftheoriginaldatasets.Experimentalresultsshowthattheproposedalgorithmcannotonlyimproveclassificationperformanceintheminorityclassdata,butalsoincreasetheoverallclassificationaccuracyrateeffectivelythanseveralexistingalgorithms
7、.Keywords:imbalanceddataset;BSMOTE;inverseundersampling;multipleclassifierensemble在许多数据分类问题中存在数据不均衡问题,如信用卡欺数据分布,然而欠抽样可能导致大数类样本中的可用信息丢[1]诈检测、识别不可靠通信用户、从卫星雷达图像中检测漏失。过抽样通过重复抽样少数类样本来平衡数据分布,然而该[2]油等。在这些问题中往往存在某一类数据数量远大于另一方法容易使得训练好的分类器出现过度适应现象,为此Chaw[5]类数据(由于多类别分类问题可以转换为两类别分类问题,本la等
此文档下载收益归作者所有