基于BSMOTE和逆转欠抽样的不均衡数据分类算法.pdf

基于BSMOTE和逆转欠抽样的不均衡数据分类算法.pdf

ID:54017903

大小:1010.33 KB

页数:6页

时间:2020-04-28

基于BSMOTE和逆转欠抽样的不均衡数据分类算法.pdf_第1页
基于BSMOTE和逆转欠抽样的不均衡数据分类算法.pdf_第2页
基于BSMOTE和逆转欠抽样的不均衡数据分类算法.pdf_第3页
基于BSMOTE和逆转欠抽样的不均衡数据分类算法.pdf_第4页
基于BSMOTE和逆转欠抽样的不均衡数据分类算法.pdf_第5页
资源描述:

《基于BSMOTE和逆转欠抽样的不均衡数据分类算法.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第31卷第11期计算机应用研究Vol.31No.112014年11月ApplicationResearchofComputersNov.2014基于BSMOTE和逆转欠抽样的不均衡数据分类算法陈睿,张亮,杨静,胡荣贵(解放军电子工程学院网络系,合肥230037)摘要:针对传统分类器在数据不均衡的情况下分类效果不理想的缺陷,为提高分类器在不均衡数据集下的分类性能,特别是少数类样本的分类能力,提出了一种基于BSMOTE和逆转欠抽样的不均衡数据分类算法。该算法使用BSMOTE进行过抽样,人工增加少数类样本的数量,然后通过优先去除样本中的冗余和噪声样本,使用逆转欠抽样方法逆

2、转少数类样本和多数类样本的比例。通过多次进行上述抽样形成多个训练集合,使用Bagging方法集成在多个训练集合上获得的分类器来提高有效信息的利用率。实验表明,该算法较几种现有算法不仅能够提高少数类样本的分类性能,而且能够有效提高整体分类准确度。关键词:不均衡数据集;边界少数类样本合成过抽样技术;逆转欠抽样技术;多分类器集成中图分类号:TP301.6;TP391文献标志码:A文章编号:10013695(2014)11329905doi:10.3969/j.issn.10013695.2014.11.023Classificationalgorithmforimb

3、alanceddatasetsbasedoncombinationofBSMOTEandinverseundersamplingCHENRui,ZHANGLiang,YANGJing,HURonggui(Dept.ofNetwork,PLAElectronicEngineeringInstitute,Hefei230037,China)Abstract:Theresultofclassicalclassificationalgorithmsinthecaseofimbalanceddatasetsisnotsatisfactory.Inordertoimprove

4、theclassificationperformanceunderimbalanceddatasets,especiallytheclassificationabilityoftheminorityclass,thispaperpresentedanovelclassificationalgorithmforimbalanceddatasetsbasedoncombinationofbordersyntheticminorityoversamplingtechnique(BSMOTE)andinverseundersampling.ItusedBSMOTEtoin

5、creasethesamplenumberofminorityclass,andthenusedainverseundersamplingmethodtoinversethecardinalitiesofthemajorityandminorityclassratiothroughremovingthesamplesofredundantandnoisesamplefirstly.Bysamplingseveraltimes,itcreatedalargenumberofdistincttrainingsets.ItusedBaggingmethodtoensembl

6、etheclassifierstrainedonthosedatasetstoimprovetheefficientuseoftheoriginaldatasets.Experimentalresultsshowthattheproposedalgorithmcannotonlyimproveclassificationperformanceintheminorityclassdata,butalsoincreasetheoverallclassificationaccuracyrateeffectivelythanseveralexistingalgorithms

7、.Keywords:imbalanceddataset;BSMOTE;inverseundersampling;multipleclassifierensemble在许多数据分类问题中存在数据不均衡问题,如信用卡欺数据分布,然而欠抽样可能导致大数类样本中的可用信息丢[1]诈检测、识别不可靠通信用户、从卫星雷达图像中检测漏失。过抽样通过重复抽样少数类样本来平衡数据分布,然而该[2]油等。在这些问题中往往存在某一类数据数量远大于另一方法容易使得训练好的分类器出现过度适应现象,为此Chaw[5]类数据(由于多类别分类问题可以转换为两类别分类问题,本la等

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。