基于支持向量机的不平衡样本分类研究-论文.pdf

基于支持向量机的不平衡样本分类研究-论文.pdf

ID:53763386

大小:382.23 KB

页数:6页

时间:2020-04-24

基于支持向量机的不平衡样本分类研究-论文.pdf_第1页
基于支持向量机的不平衡样本分类研究-论文.pdf_第2页
基于支持向量机的不平衡样本分类研究-论文.pdf_第3页
基于支持向量机的不平衡样本分类研究-论文.pdf_第4页
基于支持向量机的不平衡样本分类研究-论文.pdf_第5页
资源描述:

《基于支持向量机的不平衡样本分类研究-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第14卷第3期2014年1月科学技术与工程Vo1.14No.3Jan.20141671—1815(2014)03—0081.06ScienceTechnologyandEngineering⑥2014Sci.Tech.Engrg.基于支持向量机的不平衡样本分类研究丁福利孙立民(烟台大学计算机学院,烟台264005)摘要分类问题是机器学习领域的重要研究方向之一。支持向量机是一种基于结构风险最小化的学习机器,在解决分类问题上有着出色的效果。但基于支持向量机的分类器在处理不平衡样本时,对少类样本分类准确率偏低。诸多研究在对此问题做分析时往往把主要原因归结为各类样本间数量上的不平衡,而没有充

2、分考虑样本点在特征空间上的分布情况。针对此问题做出原因分析,并给出结论:样本的不平衡性主要是由特征空间下各类样本的分布所决定的,而和数量上的不平衡关系较小。通过实验验证结论的科学有效性。关键词支持向量机不平衡样本集特征空间样本分布中图法分类号TP391.9;文献标志码A分类准确率是反映分类器性能的重要指标。传的数量同多类样本的数量达到平衡。吴洪兴等J统的分类算法以提高整体分类准确率作为目标,且利用遗传交叉运算,生成新的少类样本。Vempulos假定数据集中各类样本数是平衡的。然而在实际问等对两类样本施加不同的惩罚因子的值,给少类题中存在大量不平衡样本集:某一类的样本数量远样本以较大的

3、惩罚因子,并给多类样本较小的惩罚远少于其他类样本数量。例如,信用卡欺诈行为检因子,用来降低样本不平衡对分类器的影响。这些测,网络入侵检测,医学疾病诊断¨等。不平衡样方法虽然从一定程度上能提高少类样本的分类准确本集分类的普遍问题是,总体分类准确率可以很高,率,但都没有从根本上分析造成分类准确率不平衡而少类样本的分类准确率较低。极端情况下,把全的原因,仅从现象的层次上去解决分类正确率不平部样本都分类为多数类,依然能获得较高的整体分衡问题。本文将分析论证,并通过实验验证不平衡类精度。然而很多实际问题中,少数类的分类准确样本集分类准确率不平衡的原因,并给出此类问题率往往比多数类的分类准确率更

4、为重要。比如,在的解决方案。癌症检测中,健康细胞相对于癌细胞是多数类,对癌1支持向量机细胞的正确分类更重要。因此,提高少数类的分类准确率成为分类问题中的一个研究热点。设已知训练样本集为,T={(,Y),(:,支持向量机是以统计学习理论和结构风险最小Y2),⋯⋯,(z,Yz)}∈(X×Y)。其中∈X=R,化原则为基础的一种学习机器J,推广能力好,在y={1,一1},i=1,2,⋯,Z。支持向量机首先通过分类,回归等领域有着广泛的应用。但是支持向量引入核函数将输入空间中的映射到特征空间机在处理不平衡样本集时,对少类样本的分类效果中的(),并构造最优化问题l’也不理想。为此,研究者们提出了

5、很多处理不平衡1rain÷fiwll+C∑(1)数据分类问题的方法。Kubat等提出了一种启发式欠采样方法,用于去除多类样本中的噪声与冗余。.『Y[W·()+b]≥1—,i=1,2,⋯,f.L‘Chawla等提出了SMOTE_4方法,在相距较近的少类【占≥0,i=1,2,⋯,Z样本之间插入人造的少类样本,用来使得少类样本(2)式(2)中,w是特征空间中的权向量,c是惩罚因2013年8月12日收到,9月20日修改山东省自然科学子,用来调节置信区间和经验风险的权重,为基金(2009ZRB019CE)资助松弛变量,b为函数的阈值。第一作者简介:丁福利(1990一),男,硕士研究生,研究方向

6、:机器学通过引入朗格朗日乘子,将上述式子转化为原习。E-mail:dingfuli@126.com。通信作者简介:孙立民(196o一),男,教授,研究生导师,研究方向:问题的对偶问题Zll机器学习,模式识别。E—mail:cslmsun@126.COrn。1min÷∑∑YiYiaK(,)一∑(3)82科学技术与工程l4卷据库¨中选取的三个数据集。将Cmc和Letter数』y~(4)据集的其中一类样本记为少类样本,剩余样本记为L0≤OL≤C,i=1,2,⋯,l多类样本,以此来构造出不平衡样本集。并将上述求解这个最优化问题,得最终函数表达式四个样本集随机抽取80%做训练样本,20%做测试

7、样本。基于支持向量机建模进行分类预测,分类准)=sgnE∑yK(x,)+6](5)确率如表所示。表1中,acc一和acc分别表示少类样本和多类2分类正确率不平衡原因分析样本的分类准确率,acc一/acc表示二者的比值。在各类样本数量上相差较大的数据集中,样本Ⅳ一和Ⅳ分别表示少类样本和多类样本的个数,较多的类称为多数类,样本较少的类称为少数类。N一/N是二者的比值。由表1可知,两类样本分在针对不平衡数据集的研究上,往往把各类样本分类正确率的平衡度与两类样本数

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。