基于支持向量机的分类算法研究

基于支持向量机的分类算法研究

ID:34140883

大小:2.66 MB

页数:50页

时间:2019-03-03

上传者:U-22505
基于支持向量机的分类算法研究_第1页
基于支持向量机的分类算法研究_第2页
基于支持向量机的分类算法研究_第3页
基于支持向量机的分类算法研究_第4页
基于支持向量机的分类算法研究_第5页
资源描述:

《基于支持向量机的分类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

东北电力大学硕士学位论文基于支持向量机的分类算法研究姓名:李小英申请学位级别:硕士专业:检测技术与自动化装置指导教师:门洪20080301 摘要摘要传统的模式识别方法在处理问题时通常需要建立准确的数学模型,而且在解决菲线性问题时很难有好的表现。许多传统统计学习方法都将基于样本数目趋于无穷大时的渐近理论作为假设,这些方法在实际应用中,往往表现不尽人意。支持向量机在解决建立模型难,维数灾难方面有很好表现,并且存小样本数据中有良好应用。正在成为继模式识别和神经网络研究之后机器学习领域新的研究热点。本文在统计学习理论基础上深入探讨了支持向量机算法及其在分类中的应用。分类实验分三组进行,选择多项式和径向基两种核函数的支持向量机进行分类仿真实验研究。在分类实验中,我们发现支持向量的数量远远小于样本数,这为我们解决大规模数据问题提供了方法。将训练样本集分解成若干个小子集,按顺序对各子集逐个训练学习,避免了大规模数据计算的麻烦。实验中采用不同规模的训练样本集,从结果发现对于训练样本较少的数据集,采用结构简单的学习函数会避免出现过学习现象;相反对于训练样本较多的数据集,采用结构简单的学习函数,会降低机器学习的推广能力。在实验中引进惩罚因子C,允许训练时错分样本的存在,适当增大C的值,可以提高学习机的推广能力。支持向量机在寻求最优分类面的过程中,只涉及到内积运算,避免了维数灾难问题。由于在中等规模数据中,支持向量机的参数会影响到分类结果,为了得到最佳的分类精度,我们采用交叉验证方法选择参数值,结果表明,交叉验证法选择参数提高了实验的平均测试准确率。最后,把实验仿真结果和神经网络算法结果相比较,结果表明支持向量机分类算法优于神经网络算法。关键词:支持向量机;模式识另q;统计学理论;神经网络 东北电力大学硕上学位论文AbstractThetraditionalpatternrecognitionmethodsdealwiththeissuewimtheaccuratemodel.Itisalsodifficulttohaveagoodshowingagainstthenon—linearproblem.Thetraditionalstatisticallearningtheoryisasymptotictheorybasedonthenumberofthesampletendingtoinfinity.Practicalapplicationsofthesemethodsareoftenunsatisfactory.Thesupportvectormachineshavegooddisplaysinsolvingmodelingandthedimensiondisaster.Ithasalsothegoodapplicationinthesmallsamples。Itisbecominganewhotspotinthemachinelearningdomain.Thisthesisdiscussestheprincipleofthesupportvectormachineanditsapplicationinclassification.Theexperimentsaredividedintothreegroupsandtwokindsofsupportvectormachinesforpolynomialkernelandradialbasisfunctionalechosentoexperimentbychangingtheparametervalues.Intheclassificationexperiment,wefindthatthenumberofthesupportvectorisfarlessthanthenumberofthetrainingsamplenumber.Thisprovidesthemethodforustosolvethelarge·scaledataproblembydividingtrainsamplesintoseveralsmallsubsetsandsequentiallytrainingsubsetsonebyone.Differentsizetrainingsamplesarechosenintheexperiments.Theresultsshowthat,basedonstructuralriskminimizationprinciple,thelesstrainingsamples,usingsimplestructurelearningfunction,willbetoavoidaoverfittingphenomenon.Contrarytomoretrainingsamples,slightlysimplestructureofthelearningfunctionwillreducepromotionalability.Intheexperiment,weintroducepenaltyfactorCtoallowthetrainingsamplestobewrongclassified.AppropriatelyincreasingthevalueofthepenaltyfactorC,thepromotionalabilityofthelearningmachineCanbeimproved.Thesupportvectormachinehasavoidedthedimensiondisasterwiththeinnerproductoperation.Theparametersofthesupportvectormachinewouldaffecttheclassificationresultsinthemedium-scaletrainingsamples.Inordertogetthebestclassificationaccuracy,wealeusingcross-validationmethodtochooseparameter Abstractvalues.Theresultsshowthatcross—validationmethodincreasestheaverageaccuracy.Finally,wecomparetheresultsofthesupportvectormachinealgorithmandtheneuralnetworkalgorithm.Theresultsshowthatthesupportvectormachinealgorithmissuperiortotheneuralnetworkalgorithm.Keywords:Supportvectormachine;Neuralnetwork;Patternrecognition;StatisticalLearningTheory 论文原创性声明本人声明,所呈交的学位论文系在导师指导下本人独立完成的研究成果。文中依法引用他人的成果,均已做出明确标注或得到许可。论文内容未包含法律意义上已属于他人的任何形式的研究成果,也不包含本人已用于其他学位申请的论文或成果。本人如违反上述声明,愿意承担以下责任和后果:1.交回学校授予的学位证书;2.学校可在相关媒体上对作者本人的行为进行通报;3.本人按照学校规定的方式,对因不当取得学位给学校造成的名誉损害,进行公开道歉;4.本人负责因论文成果不实产生的法律纠纷。论文作者签名:奎!』:煎日期:丝里星年』月盟日论文知识产权权属声明本人在导师指导下所完成的论文及相关的职务作品,知识产权归属东北电力大学。学校享有以任何方式发表、复制、公开阅览、借阅以及申请专利等权利。本人离校后发表或使用学位论文或与该论文直接相关的学术论文或成果时,署名单位仍然为东北电力大学。论文作者签名:奎!):塞导师签名:j马笃』Et期:z芝2&年j月丝Et日期:涩星年—L月盟日 《中国优秀博硕士学位论文全文数据库》和《中国学位论文全文数据库》投稿声明研究生部:本人同意《中国优秀博硕士学位论文全文数据库》和《中国学位论文全文数据库》出版章程的内容,愿意将本人的学位论文委托研究生部向中国学术期刊(光盘版)电子杂志社的《中国优秀博硕士学位论文全文数据库》和中国科技信息研究所的《中国学位论文全文数据库》投稿,希望《中国优秀博硕士学位论文全文数据库》和《中国学位论文全文数据库》给予出版,并同意在《中国优秀博硕士学位论文全文数据库》和CNKI系列数据库以及《中国学位论文全文数据库》中使用,同意按章程规定享受相关权益。论文级别:耐磊士口博士作者签名:奎!』:基作者联系地址(邮编):作者联系电话:指导敦师繇!j丝日期:群年—L月j型日L/。 第1帝绪论曼曼皇皂曼曼曼蔓詈,l.III=I曼曼鼍曼皇曼量曼第1章绪论1.1课题研究的背景机器学习是现代智能技术的重要方面,主要研究如何从一些观测数据(样本)出发得出目前尚不能通过原理分析得到的规律,利用这些规律去分析客观现象,对未来数据或无法观测的数据进行预测。现实世界中确实存在大量的人类尚无法准确认识但却可以进行观测的事物,因此机器学习在现代科学、技术社会经济等各领域有着十分重要的应用。将研究的规律抽象成分类关系时,这种机器学习问题就演变成分类问题,或称模式识别;而将研究的规律抽象成预测或估计问题时,就称为回归问题。包括模式识别、神经网络等在内,现有机器学习方法共同的重要理论基础之一是统计学。传统统计学研究的是样本数目趋于无穷大时的渐近理论,现有学习方法也多是基于此假设。但在实际问题中,样本数往往是有限的,因此一些理论上很优秀的学习方法实际中表现却可能不尽人意。与传统统计学相比,统计学习理论(StatisticalLeamingTheo黟~SLT)是一种专门研究小样本情况下机器学习规律的理论。随着其理论的不断发展和成熟,统计学习理论开始受到越来越广泛的重视n’21。支持向量机(SupportVectorMachines—一SVM)是在统计学习理论的基础上发展起来的,借助于最优化方法解决机器学习问题的新工具。1.2支持向量机的发展概述1.2.1支持向量机的发展Vapnik等人在20世纪60年代开始研究有限样本情况下的机器学习问题,到90年代,逐渐形成了较完善的理论体系——统计学习理论。在统计学习理论的基础之上发展出了新方法——支持向量机方法,在解决小样本机器学习问题和高维数问题表现出许多特有的优势,开始成为克服“维数灾难”和“过学习"等传统困难的有力手段。1971年,V.Vapnik和A.Chervonenkis提出了支持向量机的一个重要的理论基础叫C维理论,但它是建立在经验风险最小化原则基础之上,即以训练的 东北电力人学硕士学位论文平均误差为最小的模型作为期望的最终模型。因此,直到20世纪90年代初,VC维理论还没有得到很好的应用。1982年,V.Vapnik进一步提出了具有划时代意义的结构风险最小化(StructuralRiskMinimizatio玎——SRM)原则,在此基础上,90年代Vapnik和他的At&TBell实验室小组提出了支持向量机方法,进一步丰富和发展了统计学习理论,使抽象的学习理论转化为通用的实际算法。支持向量机算法出现不久,其成功的应用即吸引了国际上众多的知名学者,在理论研究和算法实现上都有很大的进展。近十年出现了许多发展和改进的支持向量机算法b’41.有关非线性SVM中核函数的研究方法,在文献[5]中有较详细地叙述。由于支持向量机在许多应用领域表现出很好的推广能力,自提出以后,得到了广泛的研究。目前,对支持向量机的研究主要有:统计学习理论基础的研究、各种改进支持向量机方法、针对大型问题的有效算法以及各种应用领域的推广等№·71。1.2.2支持向量机的研究现状SVM需要求解凸二次规划问题,传统的优化方法如:内点法等,可以直接用来求解。Mangasarian在文献[8]中将支持向量机中的凸二次规划问题转化为无约束的问题,因此求解无约束问题的方法也可以作为支持向量机的算法。牛顿(Newton)法是求解无约束问题的基本算法,基于不精确Newton法的思想,有许多改进Newton法的方案。特别是用条件预优共轭梯度法求解Newton方程的算法∞1,虽然许多算法在实际中十分有效,但是对其有效性缺乏理论上的证明。目前,专门针对支持向量机中的优化问题,还提出了一些有效的算法。支持向量机中的最优化问题是一类特殊的问题,具有一些非常好的特性,例如解的稀疏性和最优化问题的凸性等,这些性质使得构造使用较少存储的快速专用算法成为可能。专用算法的一个共同特点是:将大规模的原问题分解成了若干小规模的子问题,按照某种迭代策略,反复求解子问题,构造出原问题的近似解,并使该近似解逐渐收敛到原问题的最优解。事实上,由于子问题的选取和迭代策略的不同,可以有很多不同的算法,例如选块算法(Chunking)、分解算法(Decomposing)和序列最小化算法(SequentialMinimalOptimization,简称SMO)等。选块算法(Chunking)是由Cortes和Vapnikn们提出的。由于支持向量机方法得 第1章绪论到的决策函数只与支持向量有关,与其他样本点无关,即如果只取支持向量作为训练样本,得到的决策函数与原有的所有训练点作训练样本得到的决策函数是一致的。对于大量样本数据的问题,往往支持向量不多,基于这种思想,选块法将大规模的训练集分成若干小规模的训练子集。按顺序逐个对各子集进行学习。在对每个子集学习时,只需根据上个子集得到的支持向量以及当前的子集进行计算。后来提出的增量学习方法(IncrementalLearning)n妇本质上就是选块算法。Osuna提出了分解算法,即将一个二次规划问题转化为求解一系列规模较小的二次规划问题。这些小规模的二次规划问题只涉及到训练集中的一部分样本点。分解算法的关键在于选择一种适当的对样本点的换入换出策略。Joachims提出的一些启发式的迭代策略有助于提高算法的收敛速度。在他的基础上建立了一个求解大型支持向量机中优化问题的算法,称为SVMlight。其基本思想是,如果存在不满足KKT条件的样本点,则以某种方式选择一个由g个样本点组成的工作集,在这个工作集上求解二次规划问题,而与其他样本点相应的信息保持不变,重复这一过程,直到所有的样本都满足KKT条件。’序列最小最优化(SMO)是JollIlC.Platt提出的,是在两个样本点组成的工作集上用解析法求解二次规划,而不需要采用数值优化算法。Keerthii和Gilbertn羽证明了SMO算法的收敛性。支持向量机在理论和应用方面已经有很多研究。归纳起来有:通过增加函数项,变量或修改系数等方法使标准的支持向量机中的最优化问题变形,产生出能解决某一类问题或在某方面有优势的算法。每一种算法都有不同的参数、核函数,在试验中需要分别验证各种算法的优劣,比较之后从而决定应用具体模型到研究的问题中。1.2.3支持向量机的应用支持向量机方法在模式识别领域已经有了很好的应用,第一个应用是手写数字的识别问题n引,后来应用于人脸检测n们,以及文本分类n站等各种领域。支持向量机在生物信息领域,如蛋白质的分类,DNA分析等,取得了较好的结果。此外,支持向量机还应用于时间序列分析n6’171、回归分析n引、聚类分析。MIT,BellLab和微软研究所等已成功地将SVM算法应用于动态图像的人脸跟踪,信号处理, 东北电力大学硕士学位论文语音识别,图像分析和控制系统诸多领域n0’191。支持向量机自出现以来,应用领域越来越广泛,但时间序列分析,回归,聚类分析等方面的研究,还有待进一步的完善。另一方面,在分类问题中出现的核函数选择、算法参数选择问题等,还需要进一步的研究。1.3本文的主要工作针对分类问题中出现的核函数选择、算法参数选择问题,本文通过学习研究统计学习理论,深入探讨了支持向量机的算法原理,在此基础上,本文选择多项式核和径向基两种核的支持向量机。通过不同规模的数据样本进行实验研究,分析核参数及核函数对分类结果的影响。为了得到精度较高的分类结果,我们选用交叉验证方法选择核参数。并把支持向量机实验仿真结果和神经网络的仿真结果进行比较。 第2审支持向量机的理论基础第2章支持向量机的理论基础现有的机器学习方法共同的重要理论基础之一是统计学,而统计学研究的是样本数目趋于无穷大时的渐进理论,统计学中关于估计的一致性,无偏性和估计方差的界等也都基于此假设。例如:Bayes,KNN等传统类型的分类器,都是以样本数目无限多的假设为前提,即只有样本数目无穷大时性能才有理论的保证。但是,这一条件在实际应用中是很难成立的。国内外很多学者的研究表明,在实践中建立一个标准的、足够大的、在统计理论上有保证的训练样本库是极其困难的。各种研究都只能是在有限样本下得出的结论,很难有理想的效果,特别是问题处于高维空间时更是如此,这是包括模式识别和神经网络在内的现有的机器学习理论和方法中一个根本问题。而统计学习理论在这方面取得了实质性的突破盟们。统计学习理论,是一种专门研究小样本情况下的机器学习规律的理论,该理论针对小样本统计问题建立了一套新的理论体系,这种体系下的统计推理规则不仅考虑了对渐进性能的要求,而且追求现有有限信息条件下的最优结果。VVapnik等人从20世纪六七十年代开始致力于此方面的研究乜u,由于当时这些研究尚不完善,在解决模式识别问题中往往比较保守,且数学上比较艰涩,直到90年代以前没有提出能够将理论付诸实现的较好的方法。加之当时正处于其他学习方法飞速发展时期,因此这些研究一直没有得到充分的重视。直到90年代中期,随着其理论的不断发展和成熟,试图从更本质上研究机器学习问题的统计学习理论逐步得到重视乜2~2钔。统计学习理论从理论上较系统地研究了经验风险最小化原则成立的条件,有限样本下经验风险与期望风险的关系以及如何利用这些理论找到新的学习原则和方法等问题。它主要包括4个方面的内容∞一引:(1)经验风险最小化原则下统计学习一致性的条件;(2)在这些条件下关于统计学习方法推广性的界的结论;(3)在这些界的基础上建立的小样本归纳推理原则;(4)实现这些新的原则的实际方法(算法)。 东北电力大学硕-』j学位论文其中,核心内容是:VC维,泛化性的界,结构风险最小化。2。1机器学习方法简介长期以来,构造可以从经验中学习的机器无论在哲学界还是在科技界都是研究目标之一。人工智能领域的研究者从一开始就考虑了学习的问题,AlanTruing在1950年就指出了学习器的思想,机器学习方法的发展己成为人工智能的一个重要的子领域,最终形成了机器学习这样一个独立的学科领域乜仉矧。.机器学习的基本模型如图2.1所示,S是待研究的系统,LM是学习机。给定X,S输出Y,LM输出Y。可一般的表示为:变量Y与X之间存在一定的未知的依赖关系,即遵循某一未知的联合概率F(x,夕),z和Y之间的确定关系可以看作是其特例,机器学习就是根据n个独立同分布的观测样本(鼍,咒),(x2,Y2),⋯,(%,蚝)(2—1)在一组函数{f(x,co))中求一个最优函数f(x,‰),使预测的期望风险R(彩)=IL(y,f(x,co))dF(x,J,)(2—2)最小。其中{f(x,co)}称为预测函数集,国∈Q为函数的广义参数,{f(x,Co))可以表示任何函数集,L(y,f(x,Co))是由于用f(x,co)对Y进行预测而造成的损失。不同类型的学习问题有不同形式的损失函数。预测函数也称为学习函数,学习模型或者学习机器。图2-1机器学习的基本模型 第2章支持向量机的理论基础2.2复杂性和推广能力目前存在多种归纳式学习的分类算法,如支持向量机算法、决策树、神经网络方法、最大平均熵方法、最近K邻近方法、贝叶斯方法和向量距离分类法世守。学习的目的就是根据给定的训练样本求出系统S的输入输出之间的关系,以使LM对未知输出做出尽可能准确的预测,在预测函数集{.厂(x,co)l中得到预测函数f(x,COo)。一般以预测的期望风险R(缈)最小作为确定预测函数的标准。由于不知道真实系统S的确切关系,所以无法求得期望风险。因而,根据概率论中的大数定理,以学习机在训练样本的风险的算术平均值,即经验风险R。。(彩)来逼近期望风险。进而以求经验风险最小值来替代期望风险最小值,这就是经验风险最小化原则ERM。显然,这是想当然的做法,是不完备的。足。。(彩)和月(彩)都是攻'的函数,概率论的大数定理只说明当样本数趋于无穷时R。,(国)在概率意义上趋近R(彩),并没有保证使‰(国)最小的国’与使R(co)最小的缈⋯是同一点,更不能保证如。(国‘)能够趋近于R(∞”);而且即使样本数目无穷大时能够保证,也无法认定ERM在有限样本下能够得到好的结果。而人们在学>--j机器的复杂性与推广能力方面的研究表明:在有限样本下,如。(缈)最小并不意味着R(to)最小。ERM准则不成功的一个例子是神经网络的过学习问题。开始,很多注意力都集中在如何使Remt,(o))更小,但很快就发现,训练误差小并不总能导致好的预测效果。某些情况下,训练误差过小反而会导致推广能力的下降,即真实风险的增加,这就是过拟合问题。之所以出现过学习现象,一是因为样本不充分,二是学习机器设计不合理,这两个问题是互相关联的。设想一个简单的例子,假设有一组实数样本化y),X分布在实数范围内,Y取值在[O,1】之间,那么不论样本是依据什么模型产生的,只要用一个函数f(x,口)=sin(ax)去拟合这些样点,其中口是待定参数,总能够找到一个口使训练误差为零,但显然得到的“最优”函数并不能正确代表真实的函数模型。究其原因,是试图用一个十分复杂的模型去拟合有限的样本,导致丧失了推广能力。在神经网络中,若对有限的样本来说网络学习能力过强,足以记住每个样本,此时经验风险很快就可以收敛到很小甚至零,但却根本无法保证它对未来样本能给出好的预测。这就是有 东北电力大学硕十学位论文限样本下学习机器的复杂性与泛化性之间的矛盾瞰1。文献【22,24】给出了一个实验例子,在有噪声条件下用模型Y=x2产生10个样本,分别用一个一次函数和一个二次函数根据ERM原则去拟合,结果显示,虽然真实模型是二次多项式,但由于样本数有限,且受噪声的影响,用一次函数预测的结果更好。同样的实验进行了100次,71%的结果是一次拟合好于二次拟合。同样的现象在模式识别问题中也很容易看到。由此可看出,有限样本情况下:经验风险最小并不一定意味着期望风险最小;学习机器的复杂性不但应与所研究的系统有关,而且要和有限数目的样本相适应。2.3VC维一反映函数学习能力的指标为了研究学习过程一致收敛的速度和推广性,统计学习理论定义了一系列有关函数集学习性能的指标。其中最重要的是VC维(VapnikChervonenkisDimension)。模式识别方法中VC维的直观定义是:对于一个指示函数集,如果存在h个样本能够被函数集中的函数按所有可能的26种形式分为两类,则称函数集能够把h个样本打散。指示函数集的VC维就是用这个函数集中的函数所能打散的最大样本集的样本数h。若对任意数目的样本都有函数能将它们打散,则函数集的VC维是无穷大。在指示函数集的VC维的基础上,可以定义一般有界实函数的VC维。基本思想是通过一阈值将实值函数转化成指示函数。VC维是目前为止对函数学习集学习性能的最好描述指标。一般而言,VC维越大则学习机器越复杂,学习容量就越大。目前尚没有通用的关于任意函数集VC维计算的理论。例如在刀维实数空间中线性分类器和线性实值函数的VC维是胛+1,而f(x,口)=sin(ax)的VC维则为无穷大。对于一些比较复杂的学习机(如神经网络),其VC维除了与函数集(神经网络结构)有关外,还受学习算法的影响,其确定更加困难。对于给定的学习函数集,如何计算其VC维是当前统计学习理论中有待研究的问题砼2’驯。2.4泛化性的界统计学习理论中关于经验风险和实际风险之间的关系的结论即为泛化性的界。泛化性的界是建立在VC维基础上的。关于二值分类问题,结论是:对预测 第2章支持向量机的理论基础函数集或者假设空间中的所有函数(包括使经验风险最小的函数),经验风险‰(国)与实际风险尺(缈)之间以至少1-刁的概率满足式嘲:R(挑R唧(卅圭石(2-3)其中,当函数集中包含无穷多个元素(即参数国有无穷多个取值可能)时,F:s(詈,了-lnr/胁,—h(1n卫a2n+_1)-In(r//4)而当函数集中包含有限个(N个)元素时,s:2—InN-—Inr/(2.4a)(2.4b)其中h是函数集的VC维,,z是样本数,卵是满足0--j的实际风险R(co)由两部分组成:一是经验风险(训练误差)R。.v(co),另一部分为置信范围。置信范围反映了真实风险和经验风险差值的上界,反映了根据经验风险最小化原则得到的学习机器的推广能力,因此称作推广性的界。它和学习机器的VC维h及训练样本数,l有关。式((2.3)可以简单地表示为:R(co)≤R堋,(co)+矽(孚)(2—5)‘以进一步的分析发现,当捍/h较小时(比如小于30,此时我们说样本数较少),置信范围矽较大,用经验风险近似真实风险就有较大的误差,用经验风险最小化取得的最优解可能具有较差的推广性;如果样本数较多,拧/h较大,则置信范围就会很小,经验风险最小化取得的最优解就接近实际的最优解。另一方面,对于一个特定的问题,其样本数n是固定的,此时学习机(分类器)的VC维越高(既复杂性越高),则置信范围就越大,导致真实风险与经验风险之间可能的差就越大。因此在设计分类器时,我们不但要使经验风险最小化,还要使VC维尽量小,从而缩小置信范围,使期望风险最小。这就是为什么会出现过学习现象的原因。但是,推广性的界是对于最坏情况的结论,在很多情况下是较松的,尤其当VC维较高时更是如此。文献[27]指出,当(办/刀)>0.37时这个界肯定是松弛的。而且当VC维无穷大时,这个界限就不再成立。而且,这种界只在对同一类 东北电力大学硕士学位论文学习函数进行比较时有效。可以指导我们从函数集中选择最优的函数,而在不同函数集之间比较却不一定成立暖别。2.5结构风险最小化传统机器学习方法中普遍采用的经验风险最小化原则在样本数目有限时是不合理的(见2.1.2节)。实际上需要同时最小化经验风险和置信范围。在传统的学习方法中,选择学习模型和算法的过程就是优化置信范围的过程。如果选择的模型比较适合现有的训练样本(相当于h/刀值合适),则可以取得比较好的效果。比如在神经网络中,需要根据问题和样本的具体情况选择不同的网络结构(不同的网络结构具有不同的VC维),然后进行经验风险最小化。在模式识别中,选择了一种分类器形式(比如线性分类器),就确定了学习机器的VC维。实际上,这种做法是在式(2.5)中首先通过选择模型来确定矽,然后固定≯,通过经验风险最小化求最小风险。因为缺乏对矽的认识,这种选择往往是依赖先验知识和经验进行的,这造成了神经网络等方法对使用者“技巧"的过分依赖。对于模式识别问题,虽然很多问题不是线性的,但当样本数有限时,使用线性分类器往往得到不错的结果,其原因就是线性分类器的VC维比较低。这样有利于在样本较少的情况下得到小的置信范围。统计学习提出了一种新的策略:首先把预测函数集S={/(x,oJ),国∈Q}分解成一个函数子集序列(或者称为子集结构),墨c是⋯c·Rc⋯cS(2·6)使各个子集按照矽的大小排列,即按照VC维的大小排列,即扛≤忽≤⋯≤吃≤⋯(2-7)这样在同一个子集中置信范围相同;在每个子集中寻找最小经验风险,通常它随着子集复杂度的增加而减小。在子集间折中考虑经验风险和置信范围,选择最小经验风险和置信范围之和最小的子集,就可以取得实际风险最小,这个子集中使经验风险最小的函数就是要求的最优函数,这种思想称为结构风险最小化汹1,即SRM原则。如图2.2所示。统计学习理论还给出了合理的函数子集结构应满足的条件及在SRM原则下实际风险收敛的性质。在图2.2结构风险最小化示意图中,随着VC维的增大, 第2章支持向量机的理论基础曼曼量曼曼量鼍曼曼皇曼曼曼蔓皇曼兰曼曼皇曼曼曼皇鼍鼍曼I一一.I鼍曼曼曼曼皇皇曼曼曼葛曼量曼皇皇曼曼曼鼍曼曼曼量曼鼍曼曼曼舅置信范围曲线和经验风险曲线分别上升和下降,两条曲线的交点即为所求的期望风险最小的点。集合S1.S2.S3各自的VC维满足条件:hil,即样本到分类面的最小距离为l。如果分类面对所有的样本正确分类,应满足约束:只l(w·薯+6)一1l≥o,f=1,2,⋯,玎(3—4)但是,满足以上约束的分类面不只一个,在结构风险最小化原则下,支持向量机寻找最优超平面,不但要使两类之间间隔最大,还要保持对训练样本的分类误差尽可能的小。前者使推广性的界中置信范围最小,而后者保证了经验风险最小(为0),两者相加从而使得真实风险最小。使两类之间的间隔2/llwli最大u价于f吏llwll2最小,对训练样本的分类误差尽可能的小就是要求训练样本x尽可能的满足式(3-4)。满足上述条件的分类面就是最优分类超平面。鼠和垦上的那些训练样本就是使式(3—4)中等号成立的那些样本,称为支持向量,因为最优分类超平面是由它们决定的。下面介绍如何求最优分类超平面,根据上面的讨论,求最优分类超平面问题可以表示成如下的约束优化问题,即在式(3-4)的约束下,求函数1—1矽(w)=寺11wll2=寺(w·w)(3—5)二‘的最小值,为此可以定义如下的Lagrange函数£(w,b,口)=寺(w·w)~∑q{以[(w·一)+6]一1}(3—6)oftl其中必>0为Lagrange系数,我们的问题是对w和b求Lagrange函数的极小值。将式(3-6)分别对w和b求偏微分并令它们为O,就可以将原问题转换为如下这种较简单的对偶问题:在约束条件∑"q=oi=l%≥O,f-1,⋯,疗之下对口。求解下列函数的最大值:(3-7口)(3-76) 东北电力大学硕一1二学位论文若口’为最优解,则Q(口)=∑q一去∑q吩M乃(薯,xv)(3—8)f-I‘J.i=iW’:y口?Y(3一一)iXi9。乙哆L3一’f=i即最优分类超平面的权系数向量W是训练样本向量的线性组合。这是一个不等式约束下的二次函数极值问题,存在唯一解。且根据Kuhn—Tucker条件,这个优化问题的解必须满足:哆(咒(w·墨+6)-1)=0,f=1,⋯,玎(3—10)因此,对多数训练样本口‘将取O,取值不为0的口。对应的样本葺是使式(3-4)等号成立的样本,这样的样本称为支持向量,它们通常只是全体训练样本中很少的一部分。求解上述问题后得到的最优分类函数是:rH、厂(x)=sgn{(w.·工)+6.}=sgntZ"只(薯·x)+矿}(3—11)Li=IJsgn()为符号函数。由于非支持向量对应的口。均为O,因此式中的求和只对支持向量进行,而b’为分类的域值,可以由任意一个支持向量用式(3-4)求得(因为支持向量满足其中的等式),或通过两类中的任意一对支持向量取中值求得。3.2非线性支持向量机以上讨论假设训练样本集都是线性可分的,在线性不可分的情况下,需要通过非线性变换将训练数据集从输入空间x映射到高维特征空间F={矽(x)/x∈X{即改变训练数据的表达形式:z=(xt,⋯,而)一矽(功=(破O),⋯,丸(砌,训练数据在经过这样的转换后,在高维特征空间中使用线性分类器有可能将它们将分开。图3-2展示了训练数据从输入空间映射到高维特征空间的例子,在输入空间中,训练样本不能通过线性函数分开,但在特征空间中是可以的。但上述这种非线性变换可能比较复杂,这种思路在一般情况下不容易实现,但在上面的对偶问题中,无论是目标寻优函数(3—8)还是分类 第3章支持向量机矽(x)yxxn图3.2将非线性问题通过非线性变换转化为某个高维空间的线性问题函数(3-11)都只涉及训练样本之间的内积运算(薯.x,)。设有非线性映射矽(z):X—F将输入空间X的样本映射到高维特征空间F,当在特征空间F中构造最优分类超平面时,训练算法仅使用样本点的点积驴(薯)·矽(z,),而没有单独的矽(x)出现,因此如果能够找到一个函数K,使得K(薯,x,)=≯(t)·≯(x『)’这样在高维特征空间实际上只需进行内积运算,并且这种内积运算可以在输入空间中的函数进行,我们甚至没有必要知道非线性映射函数矽(x)的具体形式,根据泛函的有关理论,只要一种核函数K(t,x,)满足Mercer条件,它就对应某一变换空间中的内积。因此在分类中采用适当的内积函数K(薯,x,)就可以实现某一非线性变换后的线性分类,而计算复杂度却没有增加,此时目标寻优函数(3-8)变为:Q(ot)=∑%一去∑%哆乃乃K(薯·xv)(3—12)而相应的分类函数也变为:/(x)=sgn{(w‘.z)+b’}=sgn(窆z舅K(蕾.一)+b+)(3-13)i=l这就是支持向量机,示意图如图3-3所示。 东北电力大学硕十学位论文而恐图3.3支持向量机示意图输出决策规则:y=sgn()-"q儿K(薯,x)+6)i=l权值w=q咒基于J个支持向量■,X2,⋯≮的非线性变换(内积)输入向量(x1,x2,⋯,Xd)支持向量机在寻找最优分类超平面的过程中只涉及样本的内积运算,这就避免了“维数灾难’’问题;在构造分类函数时,不是对输入空间中的样本做非线性变换,然后在特征空间求解;而是先在输入空间比较向量(例如求点积或是距离),对结果再做非线性变换汹1。这样,大量的工作是在输入空间完成的而不是在高维空间完成的。很明显上述方法在保证训练样本全部被正确分类,即经验风险足。。为O的前提下,通过最大化分类间隔来获得最好的泛化性能,如果希望在经验风险和泛化性能之间求得某种平衡,可以通过引入松弛因子毒来允许错分样本的存在,如图3—4所示,丐和x,分别出现在蜀和%的部分,磊和善,分别为薯和xj到骂和风的距离,在当前情况下虽然Xi被误分,但是此时分类器却有了好的泛化能力[摺】此时求最优分类超平面问题可以表示成如下的约束优化问题:在式咒I(w·薯)+6I一1+毒≥O,i=1,2,”。,刀(3—14)的约束下,最小化目标函数 第3章支持向量机H2o●..·_·‘·‘.,~..图3-4在分类中引入松弛因子善矽(w):翔wif2+c窆毒:i1(w.w)+c窆磊(3—15)与式(3—5)相比,式(3一i5)中加入了惩罚项c∑毒,C为惩罚因子,可以通过调整c,在分类器的泛化能力和错误分类之间进行折衷。这样Wolf对偶问题可以写成在满足约束∑Yt口,-=o(3—16)i=10≤呸≤C,i=l,⋯,甩(3—17)的条件下,对口求解下列函数的最大值:Q(ct)=∑q—i1∑a,ajzyjK(xj·xj)(3—18)i=1‘l,』=l这是SVM方法最一般的表示。3。3核函数支持向量机的关键在于核函数。低维空间向量集通常难于划分,解决的方法是将它们映射到高维空间。但这个办法带来的困难就是计算复杂度的增加,而核函数正好巧妙地解决了这个问题。也就是说,只要选用适当的核函数,就可以得到高维空间的分类函数。支持向量机由训练样本集和核函数完全描述,因此采用不同核函数K(蕾,x,),就可以构造实现输入空间中不同类型的非线性决策面的学习机,导致不同的支持向量算法啪1。 东北电力人学硕士学位论文目前常用的核函数主要有多项式核函数,径向基函数,Sigmoid函数等。1)多项式函数:所得到的是d阶多项式分类器2)径向基函数(RBF):3)Sigmoid函数:K(t,xj)《(Xt·xj‘)*1]4K(t,=I【。lK(薯,_)=exp(一g×f‘一_12)K(薯,xj)=tanh(V(薯·_)+c)这里1,,g,d,c都是核参数。(3-19)(3-20)(3-21) 第4章实验结果,与分析皇曼曼曼曼曼曼鼍IIIIIIIII皇曼曼曼舅第4章实验结果与分析4.1数据来源和数据处理4.1.1数据来源本实验的数据来源于UCl分类数据集口¨,选择来自WisconsinBreastCancer的数据。该数据集被科研工作者广泛地应用于各种分类算法研究。根据如下breast.cancer-wisconsin.names文件中说明,本实验为二分类问题(benignI臭性,malignant恶性)。1.NumberofInstances:699汹of15July1992)2.NumberofAttributes:10plustheclassattribute3.AttributeInformation:(classattributehasbeenmovedtolastcolumn)样AttributeDomain1.Samplecodenumber2.ClumpThickness3.UniformityofCellSize4.UniformityofCellShape5.MarginalAdhesion6.SignalEpithelialCellSize7.BaleNucleiS.BlandChromatin9.NormalNucleoli’10.Mitoses11.Classidnumber(2forbenign(B),4formalignant(M))4.Missingattributevalues:16Thereale16instancesinGroups1to6thatcontainasinglemissing(i.e.,unavailable)attributevalue,nowdenotedby”?”。.19.0O0Om卜 东北电力大学硕七学位论文4.1.2数据处理(1)剔除冗余属性,故最终属性数为9。(2)对缺省值进行处理,一般采取补值或直接剔除的方法,本实验中直接把含有”?”的记录剔除。本实验样本数为683。(3)相对于libsvm的格式,把原数据放在最后一列的类标签放在属性前,做第-y,J,并在各属性值前加属性索引号和冒号”:”,以空格为界。(4)数据格式转换为带六位小数浮点数格式,便于提高程序计算精度,经过以上处理,得到原始数据。(5)避免在训练时引起数值计算的困难,将数据归一化到[一1,1]。4.2神经网络识别4.2.1BP神经网络结构设计采用BP网络来建立它们之间的关系,即将经信号预处理后的9个特征值作为网络输入(9个输入节点),输出节点对应良性和恶性两类样本。隐层节点数由经验公式口2—31:,毛=√‰+伤+口,0<口<10(4—1)确定,其中no,隅,/12分别为输入层节点数,隐层节点数和输出层节点数。经反复试验选择训练误差较小的网络结构对预测样本进行测试。本文神经网络的训练采用了梯度下降算法traingd,学习率可变的梯度下降算法traingdx和牛顿一一高斯算法trainlm。隐层传递函数选择tansig,输出层传递函数为logsig。根据式(4-1)计算隐层神经元个数在(8~14)之间选择。实验分三组进行,第一组训练、测试数据分别为(30,30),第二组训练、测试数据分别为(60,30),第三组训练、测试数据分别为(20,663)。实验中将训练数据输人神经网络,期望输出[1,0],[0,1]分别表示恶性和良性。当网络收敛到规定的误差指标时(O.0001)时,停止训练,固定网络权值和节点阈值。再将同组的测试数据输人上述经过训练的网络,从而得到预测结果。对于分类器而言,预测值>0.7视为l,预测值<0.3视为O,介于两者之间视为预测出错∞41当选择traingd训练函数时,BP网络的隐层节点由(8~14)变化,误差指 第4章实验结果与分析标取0.0001,训练步数取5000,网络均未收敛。训练结果如图4—1所示。lU10"1.I\,~~÷.j.芏罢1a‘2o詈仃。I---10.4^n·51U05001000150020002500300035004000450050StopTraining||5000Epochs图4-1学习函数为traingd的网络训练误差曲线当训练函数选择traingdx和trainlm时,网络训练误差和预测准确率如表4—1和表4-9,所示。为了清晰看到网络误差的变化情况,我们给出第一组样本在训练误差最小时,即隐层神经元个数分别为10和12时的网络训练误差曲线图4-2,图4-3,其余误差曲线图略。 东北电力人学硕七学位论文表4-1训练函数为traingdx的网络训练误差和预测准确率表4-2训练函数为trainlm的网络训练误差和预测准确率.22. 第4章实验结果与分析图4.2学习函数为traingdx的网络训练误差曲线\10-’i\j罢10.2\.jj。。o}\{\,。詈铲\?;j\:+一{.。104{’|◇1n-51UO2468t0f21StopTrainingl|14Epochsj图4.3学习函数为trainlm的网络训练误差曲线.23.缀浚鬃鬟 东北电力大学硕十学位论文4。2。2网络仿真结果分析从表4-1,表4-2中我们可以看到(1)当训练样本较少时(一般少于30),无论哪种网络的仿真结果都较差,第一组和第三组样本的测试准确率分别只有80%和90%左右。增大训练样本数,网络的测试准确率有相应的提高,如第二组训练样本。但是如果靠增大训练样本数来提高测试准确率,这对于实际问题中的有限样本问题显然是不合适的。(2)从各表中的训练误差我们可以看到,训练误差最小的网络,并不能保证测试误差最小,既测试准确率并不是最高。(3)对于第三组实验数据,由于测试样本数远远大于训练样本数,这可以看作是网络推广能力的真实体现,从仿真结果看到,网络的测试准确率也只有90%左右,表明网络的推广能力一般。(4)在实验过程中,隐层神经元的选择缺乏理论指导,只能靠经验或先验知识确定。(5)网络在训练过程中,容易陷入局部极小值。而且网络的仿真结果容易受初始权值的影响。4.3支持向量机识别结果分析4.3.1系统实现基于SVM分类系统的开发环境如下:系统平台:MicrosoftWindows开发工具:MicrosoftVisualC++6.0在此环境下,实现了一个分类系统软件。该分类系统的设计是以统计学理论和SVM原理为基础,提供了手工和自动设置学习参数的功能。例如:设置惩罚参数C的大小,比较在不同惩罚参数C下分类的准确率,并可动态调整C的大小以获取较好的分类效果;设置不同的核函数,比较不同核函数下分类器的分类效果,并可动态选择核函数以取得较好的分类效果。系统是基于LibSVM的系统,用VC++实现了分类器。SVM分类器分三部分,即样本数据归一化部分,训练部分和预测分类部分。在训练与预测分类中,采用二值分类的原则。具体实现为:按照LibSVM要求的格式对样本进行格式变换, 第4章实验结果与分析通过excel文件FormatDataLibSVM.xls打开包含数据的文本文件,然后用宏将数据转换为libSVM格式;通过样本训练得到分类模板;在分类时,把待分样本通过每一个类模板进行判断是否属于该类,最后得到样本所属的类别。4.3.2仿真结果及分析在本章第一节数据处理的基础上,选用多项式核函数和RBF核函数的支持向量机进行实验。每种核函数的支持向量机都进行三次实验,每次实验选择不同的样本数量。第一次选择60个样本,其中训练、测试样本各30个;第二次选择90个样本,其中60个样本用于训练,30个样本用于测试;第三次选择663个样本,其中20个样本用于训练,663个样本用于测试。支持向量机SYM分类学习过程:(1)数据的SvM训练利用svmtrain命令实现对训练数据集的训练,获得SVM模型model—file。用法:svmtrain[options]training—set—file[model—file](2)数据的SVM预测这里要用至Usvmpredict命令,它是根据训练获得的模型,对数据集合进行预测。用法:svmpredict[options]test—filemodel—fileoutput—file依据SVM的学习分类过程,对于多项式核函数支持向量机选择不同的参数C和d,而对于RBF核函数支持向量机选择不同的参数C和g对三组数据进行仿真研究,结果如表4-3和表4-4所示。 东北电力大学硕士学位论文表4-3基于多项式核的SVlVl识别率训测弋支持向量sVs支持向量SV-预测准确率(%)练试样235235235太本数1l14396.66673010l4396.666710014396.6667l7413149086.666790603010410131486.666790100410131486.666786。666790l3596.681796.380193.514320663103596.681796.380193.51431003596.681796.380193.5143表4-4基于RBF核的SV),t识别率训测弋支持向量SVn支持向量SV一预测准确率(%)练试样O.0l0.1l0.0l0.11O.01O.1l本数l1261271596.6667301042631596.666710026231596.6667121101122133096.6667603010610lllO2910093.333390loo65108122993。333390l93695ll96.078496.22994.72120663lO35461195.927696.380194.721100l35461196.078494.721-26- 第4章实验结果与分析从表4-3和表4-4中我们可以看到:(1)支持向量的个数明显比原样本数据少很多。由第3章讨论知道,支持向量机方法求得的决策函数只与支持向量有关,与其它样本点无关,而只取支持向量作为训练样本得到的决策函数与原有的所有训练样本点作为训练样本得到的决策函数一致。所以,对于大规模数据问题,我们将训练样本集分解成若干个小子集,按顺序对各子集逐个学习,在对每个子集学习时,只对上个子集得到的支持向量和当前子集进行计算。从而避免了大规模数据计算的麻烦。(2)从实验可以看到,训练样本较少时,选择结构简单的学习函数分类结果较好。因为支持向量机是基于结构风险最小化原理,置信风险≯(玎/矗)小意味着学习机的VC维低,而简单函数的VC维一般较抵。相反,对于表4-3中第二组实验,训练样本较多时,选择了结构简单的学习函数,由于置信风险矽(甩/办)小,使经验风险和实际风险的差距很大,从而降低了测试准确率。(3)实验中引进惩罚因子C,适当的增大C的值,可以提高学习机的推广能力,如RBF核支持向量机第二组实验,当C=10,g=O.01时,预测准确率可达到100%。(4)实验中d,g作为学习机的可调参数,用来调节经验误差值,当训练样本较少时,参数对分类结果影响不大,但是对于中等规模的数据问题,参数的选择直接影响了测试结果。4.3.3交叉验证法选择核参数从表4-3和表4-4中,我们可以看到,当训练样本数较少时,核参数及惩罚系数C对仿真分类结果影响不大。而对于中等数据规模的样本,参数的选择会直接影响到分类结果。为了得到较好的分类结果,我们采用交叉验证的方法选择参数。交叉验证法可能是目前模型参数选择方法中最有效的方法。利用交叉验证法确定最佳径向基函数宽度g以及支持向量机中的惩罚系数C。首先确立参数对(C,g),目标是选择最好的参数对(C,g)得到最大精度的交叉验证结果。对C和g采用网格搜索的办法,利用指数增长可以快速初步确定(C,g)的范围,取C=(2-52。,⋯,213,215),g=(2-14,2—2,⋯,20,22), 两两配对。当找到一个比较好的区域时,可以将该区域再次细分,以求得更高的精度。例如,粗训练得到((C,g)的值为25,2-2,则可以将区域重新划分为C=(26,2575,⋯,25,⋯24.25,24),g=(2-1)2n75,⋯,2。2,⋯,20.75,21),继续寻找更为精确的参数值。这样经过粗分和细分两个步骤,就可以选择得到比较精确的(C,g)。采用网格搜索的交叉验证法比较耗时,但是不容易遗漏好的参数对,这样针对具体问题试算的方法往往得到比较小的推广误差和较高的验算精度,最后采用得来的(C,g)对测试样本进行分类。下面使用RBF核函数通过5倍交叉验证的方法进行参数选择,即把样本集分为5部分,让其中1部分进行训练,剩下的4部分进行测试,选择出适合样本集的最佳参数。然后再利用选择好的参数对我们的实验数据进行训练测试,最后得出的精度就是样本测试的平均精度。以第一组数据为例,得到如下结果:C=0.03125,g=0.5,100%(训练准确率)optimizationfinished,#iter=15nu=1.000000obj=一0.847327,rho=0.146232nSV=30,nBSV=30TotalnSV=30#iter为迭代次数,nu为SVM的操作参数,obj为SVM文件转换为的二次规划求解得到的最小值,rho为判决函数的常数项b,nSV为支持向量个数(口≠0),nBSV为边界上的支持向量个数(a=C),TotalnSV为支持向量总个数。同时生成文件model—file,内容如下:svm_typeC_SVC//训练所采用的SVI'fl类型,此处为C—SVCkernel—typerbf//{Jll练采用的核函数类型,此处为RBF核gamma0.5//与操作参数设置中的g含义相同nrclass2//分类时的类别数,此处为两分类问题total—SV30//总共的支持向量个数rho0.146232//决策函数中的常数项b 第4章实验结果与分析label24//类别标签nr—sv1515//各类别标签对应的支持向量个数SV//对于分类问题,下列的支持向量的各列含义与训练数据集相同0.03125l:-0.3333332:一13:一14:-i5:-0.7777786:-17:-18:-19:-10.031251:一0.3333332:-i3:-0.5555564:-0.5555565:-0.7777786:-17:-18:一19:一1预测准确率Accuracy=96.6667%(29/30)C和g选择过程如图4—4。对于后两组实验,仿真结果如下:C=8192.0g=6.103515625e一005Accuracy=96.6667%(训练准确率)optimizationfinished,#iter=42nu=0.178158obj=·75198.843802,rho=-1.190985nSV=14,nBSV=8TotalnSV=14Accuracy=96.6667%(29/30)(预测准确率)C=0.5g=0.015625Accuracy=100.0%(训练准确率)optimizationfinished,#iter=10nu=0.952381obj=-5.981325,rho=-0.026046nSV=20,nBSV=20TotalnSV=20Accuracy=96.0784%(637/663)(预测准确率)从交叉验证实验以及前面自选参数实验中我们可以看到,使实验有相同分类结果的参数对并不是唯一的,但是采用5倍交叉验证法选择的参数使实验测试的平均准确率在96%以上,对于分类实验而言,已经达到了一个很高的精度,表明交叉验证法适用于支持向量机分类算法的研究。.29. 东北电力大学碗l二学位论文C和g选择过程如图4—5,图4-6所示。把实验仿真得到的拉格朗日系数口。和常数项rho代入式(3.20)就可求出最优分类函数。三次实验产生的模型文件见附录。●I1.—?__一:=j一=_∥~_,~19(C)图4—4训练样本数为30时C和g选择过程109—9.S一97— t6.scale19KC)图4-5训练样本数为60时C和g选择过程t20.scalel口(C)图4_6训练样本数为20时C和g选择过程一3l96.596lg(ga--j)100’{掣.‘98q7lg(gamma) 东北电力大学硕上学位论文4.3.4结果比较(1)把表4—1,4—2和表4—3,表4-4作对比,我们可以看到基于支持向量机算法的分类测试准确率明显高于基于神经网络算法的分类测试准确率。(2)支持向量机算法的分类结果很稳定,不像神经网络算法,结果易受初始权值的影响。(3)支持向量机算法基于结构风险最小化原则,即在经验风险和置信风险之和最小的情况下的结果,算法的推广能力很强。不像神经网络只是基于经验风险最小化原理,容易出现过学习现象。(4)支持向量机在寻求最优分类面的过程中,只涉及到内积运算,避免了维数灾难问题。而神经网络却容易陷入局部极小的问题。 总结与展望t凸12;-结与展望:日—0厅宅主本文在统计学习理论的基础上,深入研究了支持向量机算法及在分类中的应用。分类实验分三组进行,选择多项式和径向基两种核函数的支持向量机并通过改变参数值进行分类仿真实验研究。由理论和实验我们得出以下结论:(1)支持向量的个数明显比原样本数据少很多。支持向量机方法求得的决策函数只与支持向量有关,与其它样本点无关,而只取支持向量作为训练样本得到的决策函数与原有的所有训练样本点作为训练样本得到的决策函数相一致。所以,对于大规模数据问题,我们将训练样本集分解成若干个小子集,按顺序对各子集逐个学习,在对每个子集学习时,只对上个子集得到的支持向量和当前子集进行计算。从而避免了大规模数据计算的麻烦。(2)训练样本较少对,选择结构简单的学习函数分类结果较好。因为置信风险矽(聆/办)小意味着学习机的VC维低,而简单函数的VC维一般较抵。相反,训练样本较多时,选择结构复杂的学习函数,保证置信风险矽(,z/办)小,通过调节参数使经验风险最小,最终使实际风险最小。(3)引进惩罚因子C,适当增大C的值,可以提高学习机的推广能力。(4)实验中d,g作为学习机的可调参数,用来调节经验误差值,综合考虑经验风险和置信风险之和最小选择最佳参数,使得实际风险最小。(5)和神经网络算法相比,支持向量机算法的分类结果比较稳定,不像神经网络算法,结果易受初始权值的影响。(6)支持向量机算法是基于结构风险最小化原则,即在经验风险和置信风险之和最小的情况下的结果,算法的推广能力很强。不像神经网络只是基于经验风险最小原理,容易出现过学习现象。(7)支持向量机在寻求最优分类面的过程中,只涉及到内积运算,避免了维数灾难问题。而神经网络却容易陷入局部最小的问题。但是支持向量机作为一门新兴的技术,在理论和实际应用上仍然存在着一些需要深入研究和改进的地方:(1)目前没有通用的计算VC维的理论,只能知道~些特殊函数集的VC维;(2)核函数的构造虽然有定理限制,但是对于实际 东北电力大学硕一i:学位论文参数选择问题多依赖经验,选择和构造核函数至今还缺乏相应的理论指导。目前,支持向量机在模式识别、函数逼近、数据挖掘和文本自动分类中均有很好的应用,如何拓宽其应用领域、如何更有效地应用该理论方法给众多研究者提出了机遇和挑战。 参考文献蔓皇皇曼!曼曼皇曼II_.JI,,。曼曼皇曼寡曼[1]EJ.Bartlett,B.SchNkopf,andD.Schuurmanseds.Advancesinlargemarginclassifiers.Cambridge:MITPress,2000.135—146[2]B。Sch61kopf,A。J。Smola.Learningwithkernels.Cambridge:MITPress,2002.50-55[3]许建华,张学工.基于核函数的非线性口袋算法.电子学报,2003.Vol,31(4):612"。615[4]田盛丰,黄厚宽.回归型支持向量机的简化算法.软件学报,2002.Vol,13(6):11694--1172[5]B.SchOlkopf,C.JC.Burges,andA.J.Smola,eta1.Advancesinkemelmethods-supportvectorlearning.Cambridge:MITPress,1999.126~130[6]陈念贻.陆文聪.支持向量机算法在化学化工中的应用.计算机与应用化学.2002.Vol,19(6):673~676[7]安金龙,王正欧.~种适合于增量学习的支持向量机的快速循环算法.计算机应用.2003.Vol,23(10):12~14[8]Y.J.Lee,0.L.Mangasarian.ASmoothSupportVectorMachine[R].Wisconsin:UniversityofWisconsin,1999[9]S.GNash.AsurveyoftnmcatedNewtonmethods.JournalofComputationalandAppliedMathematics,2000.Vol,124(1-2):45~59[10]C.Cortes,V.Vapnik.SupportVectorNetworks.MachineLeaming,1995.Vol,20:273-297[11]C.Domeniconi,D.Gtmopulos.Incrementalsupportvectormachineconstruction.OnDataMining.USA:IEEE,2001.589~592[12]S.Keerthi,E.Gilbert.ConvergenceofageneralizedSMOalgorithmforSVMclassifierdesign.MachineLearning,2002.Vol,46(1):351~360[13]Y.Yang,J.O.Pederson.Acomparativestudyonfeatureselectionintextcategorization.Proceedingsofthe14thInternationalConferenceonMachineLearning,1997.412—420.35. 东北电力火学硕-上学位论文[14]刘江华,陈佳品.基于Gabor小波特征抽取和支持向量机的人脸识别.计算机工程与应用,2003.Vol,23(3):81~83[15]代六玲,黄河燕等.中文文本分类中特征提取方法的比较研究.中文信息学报,2004.V0l,18(1):26~32[16]程瑜蓉,郭双冰.基于混沌时间序列分析的股票价格预测.电子科技大学学报,2003.Vol,32(4):469~472[17]赵洪波,冯夏庭.非线性位移时间序列预测的进化一支持向量机方法及应用.岩土工程学报,2003.Vol,25(4):468-471[18]孙德山,吴今培.基于SVR的混沌时间序列预测.计算机工程与应用,2004.Vol,20(2):54-56[19]王俊卿,黄莎白.基于复数小波能量特征和支持向量机的图像匹配算法.中国图像学学报,2004.V01,9(9):1075~1079[20]V.N.Vapnik.TheNatureofStatisticalLearningTheory.BedimSpringer-Verlag,1995[21]VN.Vapnik.EstimationofDependenciesBasedonEmpiricalDam.Berlin:Springer-Verlag,1982[22]边肇棋,张学工著.模式识别.第二版.北京:清华大学出版,2000.284~304[23]V.N.Vapnik.StatisticalLeamingTheory.许建华,张学工译.北京:电子工业出版社,2004[24]V.CherkasskyandEMulier.LearningfromData:Concepts,Theory,andMethods.WileyInterscience,1998.90-110[25]C.Nello,S.T.John.AnIntroductiontoSupportVectorMachinesandOtherKernel—basedLeamingMethods.1edition.CambridgeUniversi够Press,2000.120-126[26]张学工.关于统计学习理论与支持向量机.自动化学报,2000.Vol,26(1):32—42[27]C.J.C.Burges.AtutorialonsupportvectormachinesforpaRemrecognition.DataMiningandKnowledgeDiscovery,1998.Vol,2:121~167[28]C.Corinna,V.Vapnik.SupportVectorNetwork.MachineLeaming,1995.Vol,-36. 参考文献20:273-297[29]王晓丹,王积勤.支持向量机训练和实现算法综述.计算机工程与应用,2004.vol,40(13):75~78[30]朱永生,张优云.支持向量机分类器中几个问题的研究.计算机工程与应用,2003.vol,39(13):36-38[31][32][33][34]C.W.Hsu,C.C.Chang,andC.J.Lin.APracticalGuidetoSupportvectorclassification.http://www.csie.ntu.edu.tw/--cjlin/liblinear,2007周开利,康耀红.北京:清华大学出版社,2005.101~110P.Nils,L.Elisabeth,andW.Fredrik.Extractionandselectionofparametersforevaluationofbreathealcoholmeasurementwithanelec缸onicnoose.SensorsandActuators。2000.Vol,84:187N197马常霞.基于传感器阵列与前馈神经网络的气体辩识系统.测控技术,2001.Vol,3(19):1819-1824.37. 东北电力人学硕十学位论文曼曼量曼曼量曼曼曼曼!曼曼曼曼曼曼曼皇曼曼曼!曼曼曼曼量——mIllII!发表论文及参加科研情况论文。[1]H.Men,X.Y.Li,J.G;Wang.AppliesofNeuralNetworkstoIdentifyGasesBasedonElectronicNose.IEEEInternationalConferenceonControlandAutomation.Guangzhou.China,2007.2699-2704.(EI收录)[2]门洪,李小英,邬广建.全固态汞离子选择电极的研究.传感器与微系统,2007.Vol,26:(1),39--40,44(核心)[3]H.Men,Y.J.Wu,X.Y.Li.CountingMethodofHeterotrophicBacteriaBasedonImageProcessing.CIS-RAM,Chengdu,China,2008,(录用,EI收录)[4]门洪,邬广建,李小英等.硫系玻璃传感器及其试验研究.传感技术学报,2006.vol,19:(4),1015-1019(EI源,核心)科研:1)参加了国家自然科学基金项目(60604023)的申请和研究工作。2)参加了吉林省杰出青年科技发展计划项目(20060124)的申请和研究工作。3)参加了吉林省教育厅科技计划项目(吉2006第自17号)的申请和研究工作。.38. 致谢曼I,,————IIIIII曼皇曼量曼曼量曼曼曼曼量致谢时光如梭,两年半的硕士学习很快就结束了,我衷心的感谢我的导师门洪副教授在学业上给我的大量指导,他的勤奋、敬业以及勇于开拓进取的精神给我留下了深刻的印象,并在以后的工作和学习中将永远激励我前进。我要感谢我的父母,是他们在精神和物质上支持我顺利完成学业,我将用我的一生来报答他们的恩情。最后,我要对我的师弟和师妹说声谢谢!你们不但在学业上给我极大的帮助,而且你们使我艰苦的学习生活变得丰富多彩,谢谢你们! 东北电力大学硕.f:学位论文附录A-1训练样本数,测试样本数均为30时,SVM训练产生的模型文件svm_typeCS'矿Ckernel—.typerbfgamma0.5nr—class2totalsv30rho0.146232label24nrsv15SV0.031251:-0.3333332:一13:-14:一15:-0.7777786:-17:-18:一19:-10.031251:-0.3333332:一13:-0.5555564:一0.5555565:-0.7777786:一17:-18:-19:一10.031251:一O.1111112:一13:-14:一15:-0.7777786:一17:-18:一l9:-10.03125l:一0.1111112:一0.7777783:一0.7777784:一0.3333335:一0.7777786:-0.3333337:一18:一19:-10.031251:-12:-13:一14:-0.5555565:一0.7777786:一0.5555567:一18:-19:一10.03125l:-12:-13:-14:-15:-0.7777786:一0.7777787:-18:-19:-10.031251:一O.111lll2:一13:一14:0.1111115:一0.5555566:一17:一0.7777788:-19:-10.031251:-0.7777782:一l3:一14:一15:一0.7777786:-17:-18:-19:-10.031251:-12:一13:一14:-15:一0.7777786:一l7:一18:-19:-10.031251:一O.1111112:一l3:一14:一l5:一0.7777786:-17:-18:一l9:一l0.031251:-12:一13:一l4:-15:一16:一17:一l8:一l9:-10.031251:-0.3333332:-13:一l4:-0.5555565:一l6:一17:-0.7777788:-1.40.. 附录9:-10.031251:一0.1111112:一13:一14:一l5:一0.7777786:-17:-18:-19:-10.031251:一0.5555562:一13:一14:-0.5555565:-0.7777786:-17:一18:-19:一10.031251:一0.7777782:一0.5555563:一l4:-15:-0.5555566:-17:-18:-19:-1—0.03125l:12:0.5555563:0.5555564:一0.7777785:一0.5555566:-0.3333337:0.5555568:0.3333339:0.555556—0。031251:0.5555562:一0.3333333:0.3333334:-15:-0.5555566:17:-0.5555568:0.7777789:-0.777778—0.031251:一0.5555562:一0.5555563:一0.1111114:一0.7777785:-0.5555566:17:0.3333338:-19:-1—0.031251:0.3333332:一0.7777783:-0.3333334:-15:-0.5555566:一0.3333337:一0.5555568:一0.5555569:-1—0.031251:12:一0.11111l3:0.3333334:一0.5555565:-0.5555566:0.3333337:-0.5555568:一0.5555569:0.555556—0.03125l:一12:一0.3333333:一0.5555564:15:-0.3333336:17:一0.1111118:0.1111119:一1—0.031251:l2:一0.3333333:0.1111114:-15:一0.7777786:l7:一O.1111118:-0.5555569:-1—0.031251:0.3333332:-0.3333333:一0.1111114:15:-0.7777786:17:-0.5555568:0.5555569:-0.777778—0.03125l:0.5555562:l3:14:l5:0.5555566:l7:18:0.3333339:-0.555556-0.031251:12:l3:14:15:16:17:-0.3333338:19:l一0.031251:0.1111112:-13:一0.5555564:-15:-0.3333336:一0.1111117:一0.1111118:19:-1一O.031251:一0.1111112:0.1111113:0.1111114:0.5555565:0.1111116:17:-0.3333338:19:一0.333333.41. 东北电力人学硕士学位论文II—O.031251:12:-0.3333333:-0.3333334:0.11111l5:一0.7777786:l7:-0.7777788:一0.5555569:一1—0.031251:一O.1111112:一0.1111113:0.3333334:0.5555565:0.1111116:17:0.3333338:-0.3333339:一1-0.03125l:0.7777782:-13:一0.7777784:0.1111115:一0。3333336:17:0.3333338:0.3333339:一0.777778A_2训练样本数为60,测试样本数为30时,SVM训练产生的模型svm_typeCSVCkernel——typerbfgamma6.10352e一005firclass2totalSV14rho-1.19098label24nrsv68SV81921:一O.11111l2:一0.3333333:一0.3333334:一0.1111115:0.46:l7:一0.58:-0.7777789:一l81921:0.1111112:0.5555563:0.5555564:一15:一0.46:一0.3333337:一0.58:0.3333339:一17741.0601076114761:-i2:-13:-14:一15:一O.66:l7:一0.58:一l9:一18192l:一O.1111112:一0.5555563:一0.5555564:一0.5555565:一0.66:一0.5555567:一0.258:-0.3333339:一l3275.026509386786l:0.1111112:一13:一14:一15:一0.66:一17:一0.58:一19:一l81921:0.1111112:一0.7777783:一14:一15:一0.86:一17:0.58:一l9:一1—8192l:-0.1lllll2:-0.7777783:-0.5555564:一0.3333335:-0.6.42. 附录6:0.3333337:一O.58:0.1111119:-1—6912.2588814096031:一0.7777782:一0.1111113:一0.5555564:-0.5555565:0.26:0.3333337:0.58:一0.1111119:-1—283.15333055216061:一0.1111112:0.1111113:一0.11llll4:0.1111115:16:-17:一O.58:-19:-1-2237.7098858496581:0.7777782:一0.1111113:0.5555564:-15:一O.66:一0.5555567:一0.758:一19:0.333333—81921:一0.1111112:一0.5555563:一0.5555564:-0.3333335:一O.66:-0.3333337:一O.58:-0.3333339:一1—81921:一0.1111112:一0.7777783:一0.5555564:-15:0.26:18:-19:-1—81921:0.7777782:一0.1111113:一0.1111114:-0.7777785:一0.66:-0.7777788:-19:一1—1582.9645191868391:0.11111l2:一0.5555563:一0.3333334:一16:-0.7777787:一0.58:0.7777789:一lA-3训练样本数为20,测试样本数为663时,SVM训练产生的结果svm_typeCSVCkernel—.typerbfgamma0.015625Firclass2totalSV20rho-0.0260458label24firsv10SVO.5l:一0.82:-13:-14:-15:-16:-17:-18:-19:一1O.51:一0.82:-13:-14:-15:-16:-17:-18:-19:-10.5l:一0.42:一13:一14:-15:一16:一l7:一0.7777788:-0.5555569:-10.5l:一O.22:一l3:一14:-15:一16:一17:一l8:一19:-1-43.. 东北电力大学硕士学位论文O.51:一O.82:-13:一14:一l5:一16:一17:一18:一19:l0.51:一O.82:-13:-14:一0.5555565:一16:一17:-18:-19:一10.51:一O.42:-13:一14:一15:-16:一17:一18:一19:一10.5l:一0.42:-13:-14:-15:-16:一17:一0.7777788:-19:-0.7142860.51:一O.42:-13:一14:一15:一0.66:一0.7777787:一18:一19:一10.51:一O.62:-13:一14:一15:一16:一17:一18:一19:一1—0.51:0.42:0.5555563:0.5555564:0.3333335:一0.66:17:0.3333338:-0.7777789:-0.428571一O.52:0.3333333:-0.3333334:一15:0.66:一17:0.3333338:19:一0.428571一O.52:13:14:0.5555565:0.26:一0.1111117:0.3333338:19:-1一O.5l:一O.42:13:0.3333334:0.5555565:0.26:0.5555567:0.3333338:-0.3333339:一1一O.52:13:14:15:一0.26:17:一0.1111118:0.1111119:一0.428571一O.52:13:l4:一0.1111115:一O.26:一0.1111117:-0.3333338:-0.3333339:一1一O.52:13:14:-0.5555565:16:一0.5555567:0.5555568:19:一0.714286—0.51:一O.22:0.5555563:0.1111114:-0.3333335:一0.66:-0.3333337:18:0.11llll9:一l—O.51:一0.22:0.5555563:0.5555564:一0.1111115:一0.26:一0.1111117:18:-0.3333339:一1—0.5l:-12:0.5555563:0.5555564:一0.111lll5:一0.26:一0.1111117:18:一0.3333339:一1.44.

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
大家都在看
近期热门
关闭