欢迎来到天天文库
浏览记录
ID:50148235
大小:547.91 KB
页数:7页
时间:2020-03-06
《一种基于混合重取样策略的非均衡数据集分类算法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、CN43-1258/TP计算机工程与科学2012年第34卷第10期ISSN1007-130XCOMPUTERENGINEERING&SCIENCEVol.34,No.10,2012文章编号:1007-130X(2012)10-0128-07*一种基于混合重取样策略的非均衡数据集分类算法ANovelClassificationAlgorithmforImbalancedDatasetsBasedonHybridResamplingStrategy谷琼,袁磊,宁彬,吴钊,华丽,李文新GUQiong,YUANLei,NINGBin,WU
2、Zhao,HUALi,LIWen-xin(湖北文理学院数学与计算机科学学院,湖北襄阳441053)(SchoolofMathematicsandComputerScience,HubeiUniversityofArtsandScience,Xiangyang441053,China)摘要:非均衡数据是分类中的常见问题,当一类实例远远多于另一类实例,则代表类非均衡,真实世界的分类问题存在很多类别非均衡的情况并得到众多专家学者的重视,非均衡数据的分类问题已成为数据挖掘和模式识别领域中新的研究热点,是对传统分类算法的重大挑战。本文提出了
3、一种新型重取样算法,采用改进的SMOTE算法对少数类数据进行过取样,产生新的少数类样本,使类之间数据量基本均衡,然后再根据SMO算法的特点,提出使用聚类的数据欠取样方法,删除冗余或噪音数据。通过对数据集的过取样和清理之后,一些有用的样本被保留下来,减少了数据集规模,增强支持向量机训练执行的效率。实验结果表明,该方法在保持整体分类性能的情况下可以有效地提高少数类的分类精度。Abstract:Imbalanceddataisacommonprobleminclassification,thisissueoccurswhenthenum
4、berofexamplesofoneclassismuchsmallerthantheonesoftheotherclasses.Itspresenceinmanyreal-worldapplicationshasattractedagrowthofattentionfromresearchers.Classifierlearningwithdata-setsthatsufferfromimbalancedclassdistributionsisachallengingproblemindataminingandpatternre
5、cog-nitioncommunity.Inthispaper,wepresentanovelpreprocessingapproachthatcombinesunsupervisedclusteringandsupervisedlearningtohandleimbalanceddatasetandapplythislearningapproachfortrainingSMO.Thisproposedalgorithmlessentheimbalancerationthroughtheconstructionofnewsampl
6、esusingtheimprovedsyntheticminorityoversamplingtechniqueandthenclusteringforbothclas-sestodeleteredundantornoisysamples.Thus,theusefulsamplesareremained,improvingthecompu-tationalefficiency.Experimentalresultsshowthattheproposedapproachcaneffectivelyimprovetheclassifi
7、cationaccuracyoftheminorityclasses,whilemaintainingtheoverallclassificationperformance.关键词:分类;非均衡数据集;预处理;混合重取样;SMOTE;聚类Keywords:classification;imbalanceddataset;preprocessing;hybridresampling;SMOTE;clusteringdoi:10.3969/j.issn.1007-130X.2012.10.026中图分类号:TP301.6文献标识码:A
8、本数据个数远远多于另一类样本数据个数的分类[1]1引言学习问题,现在很多实际应用领域如故障诊断、[2][3][4]异常检测、医疗诊断、漏油监测等分类预测非均衡数据集的分类是指分类实例中某类样中均面临这样的问题,已逐渐成为机器学习和模式*收稿日期:2
此文档下载收益归作者所有