一种基于混合重取样策略的非均衡数据集分类算法.pdf

一种基于混合重取样策略的非均衡数据集分类算法.pdf

ID:50148235

大小:547.91 KB

页数:7页

时间:2020-03-06

一种基于混合重取样策略的非均衡数据集分类算法.pdf_第1页
一种基于混合重取样策略的非均衡数据集分类算法.pdf_第2页
一种基于混合重取样策略的非均衡数据集分类算法.pdf_第3页
一种基于混合重取样策略的非均衡数据集分类算法.pdf_第4页
一种基于混合重取样策略的非均衡数据集分类算法.pdf_第5页
资源描述:

《一种基于混合重取样策略的非均衡数据集分类算法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、CN43-1258/TP计算机工程与科学2012年第34卷第10期ISSN1007-130XCOMPUTERENGINEERING&SCIENCEVol.34,No.10,2012文章编号:1007-130X(2012)10-0128-07*一种基于混合重取样策略的非均衡数据集分类算法ANovelClassificationAlgorithmforImbalancedDatasetsBasedonHybridResamplingStrategy谷琼,袁磊,宁彬,吴钊,华丽,李文新GUQiong,YUANLei,NINGBin,WU

2、Zhao,HUALi,LIWen-xin(湖北文理学院数学与计算机科学学院,湖北襄阳441053)(SchoolofMathematicsandComputerScience,HubeiUniversityofArtsandScience,Xiangyang441053,China)摘要:非均衡数据是分类中的常见问题,当一类实例远远多于另一类实例,则代表类非均衡,真实世界的分类问题存在很多类别非均衡的情况并得到众多专家学者的重视,非均衡数据的分类问题已成为数据挖掘和模式识别领域中新的研究热点,是对传统分类算法的重大挑战。本文提出了

3、一种新型重取样算法,采用改进的SMOTE算法对少数类数据进行过取样,产生新的少数类样本,使类之间数据量基本均衡,然后再根据SMO算法的特点,提出使用聚类的数据欠取样方法,删除冗余或噪音数据。通过对数据集的过取样和清理之后,一些有用的样本被保留下来,减少了数据集规模,增强支持向量机训练执行的效率。实验结果表明,该方法在保持整体分类性能的情况下可以有效地提高少数类的分类精度。Abstract:Imbalanceddataisacommonprobleminclassification,thisissueoccurswhenthenum

4、berofexamplesofoneclassismuchsmallerthantheonesoftheotherclasses.Itspresenceinmanyreal-worldapplicationshasattractedagrowthofattentionfromresearchers.Classifierlearningwithdata-setsthatsufferfromimbalancedclassdistributionsisachallengingproblemindataminingandpatternre

5、cog-nitioncommunity.Inthispaper,wepresentanovelpreprocessingapproachthatcombinesunsupervisedclusteringandsupervisedlearningtohandleimbalanceddatasetandapplythislearningapproachfortrainingSMO.Thisproposedalgorithmlessentheimbalancerationthroughtheconstructionofnewsampl

6、esusingtheimprovedsyntheticminorityoversamplingtechniqueandthenclusteringforbothclas-sestodeleteredundantornoisysamples.Thus,theusefulsamplesareremained,improvingthecompu-tationalefficiency.Experimentalresultsshowthattheproposedapproachcaneffectivelyimprovetheclassifi

7、cationaccuracyoftheminorityclasses,whilemaintainingtheoverallclassificationperformance.关键词:分类;非均衡数据集;预处理;混合重取样;SMOTE;聚类Keywords:classification;imbalanceddataset;preprocessing;hybridresampling;SMOTE;clusteringdoi:10.3969/j.issn.1007-130X.2012.10.026中图分类号:TP301.6文献标识码:A

8、本数据个数远远多于另一类样本数据个数的分类[1]1引言学习问题,现在很多实际应用领域如故障诊断、[2][3][4]异常检测、医疗诊断、漏油监测等分类预测非均衡数据集的分类是指分类实例中某类样中均面临这样的问题,已逐渐成为机器学习和模式*收稿日期:2

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。