基于样本空间分布距离的支持向量机

基于样本空间分布距离的支持向量机

ID:31360497

大小:111.50 KB

页数:7页

时间:2019-01-09

基于样本空间分布距离的支持向量机_第1页
基于样本空间分布距离的支持向量机_第2页
基于样本空间分布距离的支持向量机_第3页
基于样本空间分布距离的支持向量机_第4页
基于样本空间分布距离的支持向量机_第5页
资源描述:

《基于样本空间分布距离的支持向量机》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于样本空间分布距离的支持向量机  (1哈尔滨工业大学计算机科学与技术学院,哈尔滨150080;2哈尔滨理工大学软件学院,哈尔滨150040)  摘要:由于支持向量机(SupportVectorMachine,SVM)在处理样本不平衡分布时会有偏向性,使少数类别的分类错误率的上界高于多数样本类别。分析总结了针对该问题当前的研究方法,并指出存在问题。研究分析针对不平衡样本SVM分类识别率的倾向性问题。考虑全局样本信息,提出了三种针对所有样本空间分布距离信息的方法。在UCI数据集上进行实验,结果证明MSEDR-SVM(MeanSam

2、pleEuclideanDistanceRatio-SVM)能够有效增加少数样本类别的F-值。从而改善标准的SVM只依靠支持向量样本构建分类超平面的局限性。  关键词:SVM;不平衡样本分布;MSEDR-SVM  中图分类号:TP309文献标识码:A  SupportVectorMachinebasedonthesamplespatialdistance  YUBo1,2,LIHaifeng1,MALin1  (1SchoolofComputerScienceandTechnology,HarbinInstituteofTech

3、nology,Harbin150080,China;2SoftwareCollege,HarbinUniversityofScienceandTechnology,Harbin150040,China)  Abstract:Asthesupportvectormachinedealswithimbalancedsampledistribution,thereissometendency,7  makingtheupperboundaryofthemisclassificationrateoftheminorityabovethe

4、majority.Theresearchsolutionstotheproblemareanalyzedandsummarized,andtheproblemsexistinginthecurrentresearcharepointedout.  Accordingly,thepaperanalyzesthetendencyproblemoftheimbalancedsampledistributionontheClassificationaccuracy.Consideringthewholesampleinformation

5、,thethreemethodsbasedonsamplespatialdistributiondistanceinformationareproposed.TheexperimentonUCIdatasetsverifiesthatthenewclassierMSEDR-SVM(MeanSampleEuclideanDistanceRatio-SVM)caneffectivelyincreasetheF-valueoftheminority.  Themethodimprovesthelimitationofstandards

6、upportvectormachineonlyrelyingSupportVectorstoconstructclassificationhyperplane.  Keywords:SupportVectorMachine;imbalancedsampledistribution;MSEDR-SVM  0引言  1995年,Vpnik首次于研究中引入了支持向量机(SupportVectorMachine,SVM)[1]。SVM是基于统计学习理论VC维度和结构风险最小化原则构建提出的,并具有良好的泛化性能,因而能够解决小样本、非线

7、性和维数灾难等问题。SVM有着广泛的应用,如:语音识别[2]、脑电识别[3]、疾病检测[4-5]、故障检测[6-77]等。综合如上应用领域,当各类样本分布数量几乎相等时,SVM通常表现出优良的性能。但在实际进程中,样本的分类信息多数情况下都是不对称的,对于少数类别(如:疾病、故障等)的识别机会显得尤为重要。可见例证就是:若将一个癌症患者错误识别为健康患者的代价则将高过对于健康患者的误诊。基于此,针对少数类别样本识别准确率的应用,不平衡分布样本的识别问题研究显然具备了现实重要意义。但是,对于不平衡样本分布,标准SVM的分类识别带有

8、偏向性,导致少数类别将出现更高的分类错误。相关研究已经提出SVM针对不平衡样本分布的解决方法。具体分析论述如下:  第一类解决偏向性问题的方法是对于训练样本进行了重采样。这种方法的主要思想就是使不平衡分布的样本转变为平衡分布的样本。此时,有两种策略可供选取,主要

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。