欢迎来到天天文库
浏览记录
ID:31360497
大小:111.50 KB
页数:7页
时间:2019-01-09
《基于样本空间分布距离的支持向量机》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于样本空间分布距离的支持向量机 (1哈尔滨工业大学计算机科学与技术学院,哈尔滨150080;2哈尔滨理工大学软件学院,哈尔滨150040) 摘要:由于支持向量机(SupportVectorMachine,SVM)在处理样本不平衡分布时会有偏向性,使少数类别的分类错误率的上界高于多数样本类别。分析总结了针对该问题当前的研究方法,并指出存在问题。研究分析针对不平衡样本SVM分类识别率的倾向性问题。考虑全局样本信息,提出了三种针对所有样本空间分布距离信息的方法。在UCI数据集上进行实验,结果证明MSEDR-SVM(MeanSam
2、pleEuclideanDistanceRatio-SVM)能够有效增加少数样本类别的F-值。从而改善标准的SVM只依靠支持向量样本构建分类超平面的局限性。 关键词:SVM;不平衡样本分布;MSEDR-SVM 中图分类号:TP309文献标识码:A SupportVectorMachinebasedonthesamplespatialdistance YUBo1,2,LIHaifeng1,MALin1 (1SchoolofComputerScienceandTechnology,HarbinInstituteofTech
3、nology,Harbin150080,China;2SoftwareCollege,HarbinUniversityofScienceandTechnology,Harbin150040,China) Abstract:Asthesupportvectormachinedealswithimbalancedsampledistribution,thereissometendency,7 makingtheupperboundaryofthemisclassificationrateoftheminorityabovethe
4、majority.Theresearchsolutionstotheproblemareanalyzedandsummarized,andtheproblemsexistinginthecurrentresearcharepointedout. Accordingly,thepaperanalyzesthetendencyproblemoftheimbalancedsampledistributionontheClassificationaccuracy.Consideringthewholesampleinformation
5、,thethreemethodsbasedonsamplespatialdistributiondistanceinformationareproposed.TheexperimentonUCIdatasetsverifiesthatthenewclassierMSEDR-SVM(MeanSampleEuclideanDistanceRatio-SVM)caneffectivelyincreasetheF-valueoftheminority. Themethodimprovesthelimitationofstandards
6、upportvectormachineonlyrelyingSupportVectorstoconstructclassificationhyperplane. Keywords:SupportVectorMachine;imbalancedsampledistribution;MSEDR-SVM 0引言 1995年,Vpnik首次于研究中引入了支持向量机(SupportVectorMachine,SVM)[1]。SVM是基于统计学习理论VC维度和结构风险最小化原则构建提出的,并具有良好的泛化性能,因而能够解决小样本、非线
7、性和维数灾难等问题。SVM有着广泛的应用,如:语音识别[2]、脑电识别[3]、疾病检测[4-5]、故障检测[6-77]等。综合如上应用领域,当各类样本分布数量几乎相等时,SVM通常表现出优良的性能。但在实际进程中,样本的分类信息多数情况下都是不对称的,对于少数类别(如:疾病、故障等)的识别机会显得尤为重要。可见例证就是:若将一个癌症患者错误识别为健康患者的代价则将高过对于健康患者的误诊。基于此,针对少数类别样本识别准确率的应用,不平衡分布样本的识别问题研究显然具备了现实重要意义。但是,对于不平衡样本分布,标准SVM的分类识别带有
8、偏向性,导致少数类别将出现更高的分类错误。相关研究已经提出SVM针对不平衡样本分布的解决方法。具体分析论述如下: 第一类解决偏向性问题的方法是对于训练样本进行了重采样。这种方法的主要思想就是使不平衡分布的样本转变为平衡分布的样本。此时,有两种策略可供选取,主要
此文档下载收益归作者所有