欢迎来到天天文库
浏览记录
ID:11806436
大小:43.50 KB
页数:11页
时间:2018-07-14
《基于商空间理论的非平衡数据集分类算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于商空间理论的非平衡数据集分类算法文章编号:1001-9081(2012)01-0210-03doi:10.3724/sp.j.1087.2012.00210摘要:在机器学习及其分类问题时经常会遇到非平衡数据集,为了提高非平衡数据集分类的有效性,提出了基于商空间理论的过采样分类算法,即qmsvm算法。对训练集中多数类样本进行聚类结构划分,所得划分结果和少数类样本合并进行线性支持向量机(svm)学习,从而获取多数类样本的支持向量和错分的样本粒;另一方面,获取少数类样本的支持向量和错分的样本,进行smote采样,最后把上述得到的两类样本合并
2、进行svm学习,这样来实现学习数据集的再平衡处理,从而得到更加合理的分类超平面。实验结果表明,和其他几种算法相比,所提算法虽在正确分类率上有所降低,但较大改善了g_means值和acc+值,且对非平衡率较大的数据集效果会更好。关键词:非平衡数据集;商空间理论;支持向量机;过采样;qmsvm算法中图分类号:tp311.13文献标志码:aabstract:theapplicationofdataclassificationisusuallyconfrontedwithaproblemnamedimbalanceddataseti
3、nthemachinelearning.toimprovetheperformanceofimbalanceddatasetclassification,theover-samplingclassificationalgorithmbasedonquotientspacetheory(qmsvm)wasproposed.thealgorithmpartitionedmajoritydataonclusteringstructure,andcombinedtheresultsandminoritydataforlinearsupportve
4、ctormachine(svm)learning.supportvectorsandsampleoffaultofmajoritydatawereobtainedfromthosegranules.ontheotherhand,supportvectorsandsampleoffaultofminoritydatawereobtainedandthesyntheticminorityover-samplingtechnique(smote)wasadopted.thus,twonewkindsofsamplesweremergedfors
5、vmlearning,soastorebalancethetrainingsetandgetamorereasonableclassificationofhyperplanes.theexperimentalresultsshowthat,incomparisonwithseveralotheralgorithms,theaccuracyoftheproposedalgorithmdecreases,butitsignificantlyimprovestheg_meansvalueandclassificationaccuracyof
6、positivesandtheeffectisbetterontheimbalancerateoflargerdatasets.keywords:imbalanceddataset;quotientspacetheory;supportvectormachine(svm);over-sampling;qmsvmalgorithm0引言非平衡数据集的分类问题是机器学习和模式识别领域中新的研究热点,是对传统算法的极大考验,解决它对于完善机器学习体系、提出新的机器学习思想具有很高的理论和应用价值。非平衡数据集是指数据集中某些类的样本比其他类多
7、很多,样本多的类为多数类(即负类),样本少的类为少数类(即正类)[1]。然而,现实世界中非平衡数据集分类问题随处可见,如疾病诊断、医疗图像中肿瘤识别、信用卡欺诈检测等。这些问题中的少数类样本信息比多数类样本信息还要重要得多,但传统分类器往往把少数样本忽略导致重要信息丢失。目前国内外学者对非平衡数据集问题的研究已取得大量成果,提出了不同的处理方法,其主要成果表现在两大方面,那就是算法层面和数据处理层面。算法层面上主要是改进算法提高性能,如文献[2]在支持向量机(supportvectormachine,svm)基础上,通过优化参数改进sv
8、m在非平衡数据集上的性能;wu等也对支持向量机方法进行了改进[3];文献[4]在mpm(minimaxprobabilitymachine)模型基础上,提出了bmpm(biasedminima
此文档下载收益归作者所有