资源描述:
《基于自调节分类面SVM的平衡不平衡数据分类》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第27卷第3期(总第183期)系统工程Vol.27,No.32009年3月SystemsEngineeringMar.,2009文章编号:100124098(2009)0320110205X基于自调节分类面SVM的平衡不平衡数据分类文传军,詹永照(江苏大学计算机科学与通信工程学院,江苏镇江212013)摘要:标准支持向量机(SVM)对不平衡数据集进行分类时,会出现不平衡现象;传统不平衡数据集分类方法只能对不平衡数据集分类,且在分类过程中存在人工因素的参与。提出一种平衡不平衡数据集统一分类方法——自调节分类面支持向量机(self2adjustingclassific
2、ation2planeSVM,SCSVM),设计自适应的分类面调节方法,根据训练错分情况对分类面进行调整,控制正负类样本的错分率使其达到均衡,平衡或不平衡数据集都可采用相同的方法进行分类而不需预知数据集种类。实验表明该方法可对平衡或不平衡数据集进行有效的分类。关键词:标准支持向量机;不平衡现象;平衡不平衡数据集;自调节分类面支持向量机中图分类号:TP391文献标识码:A[6]上,引入代价函数用于错误代价的评估;Veropulos等1引言对SVM分类的两个类别施加不同的惩罚权值,降低两类[7]近年来,不平衡数据集(ImbalanceDataSet,IDS)的样本数量
3、不平衡对分类器的影响。分类器算法修正的本分类问题因其在实际应用中的广泛出现,越来越受到数据质是:通过对分类器权重参数进行调整,使分类器对正类挖掘和模式识别方向的关注和重视,已经成为机器学习领敏感。域的研究热点[1]。以上不平衡数据集处理方法,都需要预知数据集为不不平衡数据集是指某类样本数量明显少于其它类样平衡数据集,而事实上,样本分类在何种情况下会发生不本的数据集,标准的机器学习分类方法在处理不平衡数据平衡现象,且分类判决向负类倾斜的程度如何,都是未知分类问题时,会出现不平衡现象,即分类判决总会倾向于的。因此,原有处理方法需要利用人工经验对数据集类型多样本类,而导
4、致少样本类分类精度很低。为描述方便,用进行确定。同时,第一种方法中数据的采样率的确定以及负类特指多样本类,用正类特指少样本类。第二种方法中权重参数的调整,也包含了人为因素的成国内外学者对不平衡数据集问题做了大量的研究工分。当训练样本集从平衡态变为不平衡态时,所训练得到作,提出了许多不同的处理方法。主要包括从两个角度来的分类器的分类判决受到训练样本分布的影响,标准支持处理问题:①重构数据集方法,分为两种方式,一种是缩向量机仅仅利用由少量的支持向量所构造的最优超平面小多类样本,另一种是扩大少类样本,Chawla等提出作为分类标准,忽略了样本分布对分类决策的影响,从而[
5、8]SMOTE方法,在相距较近的正类样本之间插入人造的导致分类精度的不均衡。正类样本[2];李正欣等利用SMOTE方法增加正类样本,本文提出一种平衡不平衡数据集统一分类器——自提出SMOTEBoostSVM集成方法[3];吴洪兴等利用遗传调节分类面支持向量机(self2adjustingclassification2plane交叉运算,生成新的正类训练样本,重构数据集方法的核SVM,SCSVM),根据训练错分率对分类面进行自适应的心是将不平衡数据集转换为平衡数据集[4];②分类器算调整,引入样本分布对于分类的影响,均衡正负类的错分法修正,Zhou等将不平衡问题视为
6、代价敏感问题,对每率,实现平衡不平衡数据集的统一形式分类。[5]个类赋予不同的错误代价;Alejo等在文献[5]的基础X收稿日期:2008211230基金项目:国家自然科学基金资助项目(60673190)作者简介:文传军(19762),男,重庆万州人,江苏大学计算机科学与通信工程学院博士研究生,研究方向:表情识别,模式识别;詹永照(19622),男,福建尤溪人,江苏大学计算机科学与通信工程学院教授,博士生导师,研究方向:计算机图形学,人机交互,模式识别。第3期文传军,詹永照:基于自调节分类面SVM的平衡不平衡数据分类1112自调节分类面支持∑Ai=∑Ai(4)y=
7、+1y=-1ii向量机(SCSVM)因为0≤Ai≤C,从而有:NBSV+õC≤∑Ai≤NSV+õC2.1支持向量机y=+1i基于结构风险最小化原理的SVM通过寻找有限训练NBSV-õC≤∑Ai≤NSV-õC(5)y=-1样本情况下最优分类面,使得分类间隔达到最大。设{xi,iyd设Ai=Ai=K,对式(5)分别除以N+õC和i},i=1,⋯,n为n个训练样本,xi∈R,yi∈{-1,1}∑∑y=+1y=-1ii为样本i的类别属性,为了使得算法对于测试样本具有良N-õC,得:好的推广能力,所选择的最优分类面H应尽可能远离训练NBSV+KT≤样本。设分类面方程H为:x
8、w+b=0