欢迎来到天天文库
浏览记录
ID:31739860
大小:560.27 KB
页数:11页
时间:2019-01-17
《svm分类器设计》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、SVM分类器设计1•引言支撑矢量机(SVM)是90年代中期发展起来的基于统计学习理论的一种机器学习方法,通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本虽:较少的情况下,亦能获得良好统计规律的FI的。SVM分类器在推广性和经验谋差两方面能达到平衡,是目前比较盛行的分类器。1.1什么是SVM分类器所谓支持向量机,顾名思义,分为两个部分了解,一什么是支持向量,简单来说,就是支持或者是支撑平面上把两类类别划分开来的超平面的向量点;二这里的“机”是什么意思。“机(machine,机器)
2、”便是一个算法。在机器学习领域,常把一些算法看做是一个机器,如分类机(当然,也叫做分类器),而支持向最机木身便是一种监督式学习的方法它广泛的应用于统计分类以及冋归分析中。SVM的主要思想可以概括为两点:⑴它是针对线性可分情况进行分析;(2)对于线性不可分的悄况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间釆用线性算法对样本的非线性特征进行线性分析成为可能。1.2SVM分类器的优点和缺点优点:(1)由于核函数隐含一个复杂映射,经验误差小,因此针对小样本数据利用支持向
3、量能够完成线性或非线性规划问题;推广性和经验误差平衡。(2)SVM的最终决策函数只由靠近边界的少数的支持向量所确定,计算的复杂性収决丁支持向量的数目,而不是样本空间的维数,这在某种意义上避免了“维数灾难”。(3)少数支持向最决定了最终结果,这不但可以帮助我们抓住关键样木、“剔除”大最兀余样本,而且注定了该方法不但算法简单,而且具有较好的“鲁棒”性。这种“鲁棒”性主要体现在:①增、删非支持向量样本对模型没有影响;②支持向量样本集具有一定的鲁棒性;③有些成功的应用中,SVM方法对核的选取不敏感缺点:(1)在训练分类器吋,SVM
4、的着眼点在于两类的交界部分,那些混杂在另一类中的点往往无助于提高分类器的性能,反而会大大增加训练器的计算负担,同吋它们的存在还可能造成过学习,使泛化能力减弱.为了改善支持向量机的泛化能力。(2)SVM算法对人规模训练样木难以实丿施。由于SVM是借助二次规划来求解支持向量,而求解二次规划将涉及m阶矩阵的计算(m为样木的个数),当m数1=1很人时该矩阵的存储和计算将耗费大量的机器内存和运算时间。(3)用SVM解决多分类问题存在困难。经典的支持向量机算法只给出了二类分类的算法,而在数据挖掘的实际应用中,一般要解决多类的分类问题。
5、可以通过多个二类支持向量机的组合来解决。主耍有一对多组合模式、一对一组合模式和SVM决策树;再就是通过构造多个分类器的组合来解决。主要原理是克服SVM固有的缺点,结合其他算法的优势,解决多类问题的分类精度。女与粗集理论结合,形成一种优势互补的多类问题的组合分类器1.3SVM分类器当前研究热点(1)针对大样本数据训练难度问题,对SVM算法的改进。例如J.Platt的SM0算法、T.Joachims的SVM、C.J.C.Burges等的PCGC、张学工的CSVM以及0.L.Mangasarian等的SOR算法。(2)如何降低边
6、界混杂点(即所谓统计误差导致的“不干净”点)导致的不必要的训练计算负担,增强泛化能力。这种思路聚焦于样本数据预处理的探索,例如NN-SVMo(1)分类器设计思想之间的融合以及取长补短。例如[2]采样支撑矢最机和最近邻分类相结合的方法,在捉高支撐矢量机的粕度的同时,也较好的解决了核参数的问题。1.4本文所解决的问题本文对所给的二类样本,随机生成等容量的训练样本和测试样本,利用训练样本使用三种核函数生成最优决策超平而,对测试样木进行判决,将测试结果与训练目标进行比较。使用“特异性”和“敏感度”两个指标评估不同核函数的下支撑矢量
7、机的性能。2.SVM方法论述支持向量机屮对于非线性可分的情况,可使用一个非线性函数俠兀)把数据映射到一个高维特征空间,在高维特征空间建立优化超平面,判决函数变为:n=Sgn工exv(p(x(pg>+b/=1i般无法知道0(兀)的具体表达,也难以知晓样木映射到高维空间麻的维数、分布等情况,不能再高维空间求解超平面。由TSVM理论只考虑高维特征空间的点积运算而点积运算可由其对应的核函数宜接给出,即KgXj)=<(pg(pg>,用内积Kg®)代替最优分类面中的点积,就相当于把原特征空间变换到了某•新的特征空间,得到浙的优化函数
8、:I1/Max:W(a)=工匕一牙工/=!2/J=1Subjectto0<^0,z=i求解上述问题麻得到的最优分类函数是:fx)=Sgn工e’Ka,兀)+/?b是分类阀值,可以用任一个支持向量求得,或通过两类中任意一对支持向量取中值求得。其中核函数K(S)可以有多种形式,常用的有:(1)线性
此文档下载收益归作者所有