《基于支持向量机的若干分类问题研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
摘要分类问题是实际应用中普遍存在的问题,也是机器学习领域的基础研究之一,快速发展的信息技术对其在理论研究和实际应用中提出了许多新的难题和挑战。支持向量机(SupportVectorMachine,SVM)是基于统计学习理论,借助最优化方法来解决机器学习问题的有力工具,目前,已表现出很多优于已有方法的性能。本文以深入探讨分类问题为研究目标,立足于对支持向量分类机的理论模型和在实际中的应用进行完善、推广和创新。论文的主要内容包括以下几个方面:1.对本文采用的基础理论进行了介绍。主要包括机器学习的主要问题,统计学习理论的基本内容,以及支持向量机的基本思想和研究现状。2.从特征空间的几何结构入手,对核函数所蕴含的黎曼度量、距离度量和角度度量进行详细分析,在此基础上深入探讨高斯径向基核函数的几何性质,并分析了映射、核与度量之间的关系,说明支持向量机算法的解本质上依赖于度量。3.提出一种新的解决类不平衡与代价敏感分类问题的方法。支持向量机通过核函数,将数据嵌入到高维特征空间的一个低维流形表面,利用微分几何中流形表面诱导的黎曼度量,在半径间隔界的控制下,通过保角映射,放大类不平衡问题中少样本类与分界面之间的间隔,从而在保证多数类准确率较高的前提下,达到提高少数类的分类准确率,有效的减少了支持向量机在类不平衡问题中的有偏性。4.对1.v.r方法中子分类器采用不同核参数时,各决策输出值的可比性进行了深入分析,说明此时将各子分类问题映射到不同的特征空间,其决策输出值仍具有可比性,且能提高总体分类的性能。5.对分解多分类方法中存在的不可分现象进行了研究,针对一些实际应用问题,提出一种基于决策间隔的模糊输出支持向量机算法,该方法可以更为有效地解决不可分问题。 6.从VC维的角度比较了有序与无序分类问题的复杂度,说明线性分类器的VC维与其分级维相同;结合支持向量机技术提出一种改进的内嵌空间算法,并在实际有序分类问题——企业信用风险评估问题中验证了该方法的有效性。最后,对本文的工作进行了总结,并对今后的研究工作提出了展望。关键词:分类问题;统计学习理论;支持向量机 AbstractClassificationproblemisacommonprobleminpracticalapplications,aswellasabasicresearchtopicinmachine-learningdomain.Itfacesmanynewpuzzlesandchallengesbothintheoreticalresearchandinpracticalapplicationsontherapidlydevelopinginformationtechnique.SupportVectorMachine(SVM)isanewlydevelopedmachinelearningmethodbasedonthefoundationoftheStatisticalLearningTheory(SLT)andtheoptimizationtheory.Now,SVMhasalreadyshownexcellentlearningperformanceinmanyfields.Thisthesisfocuses011theclassificationproblem,particularlyconcernsoftheresearchesonthetheoreticalmodelaswellasthepracticalapplicationsofSVM.Themainworksofthisthesisarcasthefollowing:1.Thebasictheoriesusedinthisthesiswereintroduced,includingthemainproblemsandmethodsinMachineLearning,StatisticalLearningTheoryandSupportVectorMachines;then,someoftherecentresearchesonSVMwerealsoreviewed.2.Fromtheviewpointofgeometricstructureofthefeaturespace,somemetrics(Riemannianmetric,distancemetric,andanglemetric)inducedbythekernelfunctionarcanalyzed;thegeometriccharacterofGaussianRadiusBasiskernelisdiscussedindetail;therelationsamongthemapping,thekernelandthemetricarealsoanalyzed.3.Anewmethodtosolvetheimbalancedor/andcost.sensitiveclassificationproblemisproposed.UndertheRiemannianmetricinducedintheembeddedmanifold,asuitableconformalmappingofkernelisappliedtoenlargethespatialresolutionaroundthesupportvectorsofthelesspattemclass,suchthattheseparabilityforthesamplesofthelessclassiswellimproved.4.Thecomparabilityofthedecisionfunctionsgivenbythesub-classifierswithdifferentkernel—parametersin1-V-rmethodisdiscussed,andthepositive resultisobtained.5.Theexistanceoftheinvalidregionsinthemulti—classclassificationproblemsisanalyzed,andafuzzy-outputSVMisproposedtoresolvethepatternswithinsuchregionsforsomepracticalproblems.6.ThecomplicaciesoftherankingproblemandthegeneralclassificationproblemarecomparedfromtheviewpointofVCdimension,anewconcept“rankingdimension'’isproposed.Thetraditionalembeddedspacemethod,whichCandirectlytransformanordinalrankingproblemintoabinaryclassificationproblem,ismodifiedtoadaptthenonlinear-separableproblembasedonSVMscheme,andtheperformanceofthenewmethodisvalidatedbyit’Sapplicationinenterprisecreditriskassessmentproblem.Keywords:classificationproblem,StatisticalLearningTheory,SupportVectorMachine 厦门大学学位论文原创性声明兹呈交的学位论文,是本人在导师指导下独立完成的研究成果。本人在论文写作中参考的其他个人或集体的研究成果,均在文中以明确方式标明。本人依法享有和承担由此论文产生的权利和责任。声明人(签名):阔绢l虱纠年lf月尹El 厦门大学学位论文著作权使用声明本人完全了解厦门大学有关保留、使用学位论文的规定。厦门大学有权保留并向国家主管部门或其指定机构送交论文的纸质版和电子版,有权将学位论文用于非赢利目的的少量复制并允许论文进入学校图书馆被查阅,有权将学位论文的内容编入有关数据库进行检索,有权将学位论文的标题和摘要汇编出版。保密的学位论文在解密后适用本规定。本学位论文属于1.保密(),在年解密后适用本授权书。2.不保密(√f(请在以上相应括号内打“4")J1月扣日11月伽 第一章绪论1.1研究背景第一章绪论从数据中发现知识是分析复杂数据、建立决策系统的基石。随着信息技术和信息网络的飞速发展,信息产生和传播的速度迅速提高,政府、商业、企业等各行各业出现了越来越多的复杂非线性高维数据需要分析、处理。如何有效的利用数据,如何从大量的数据中寻找规律,并用这些规律对未来数据进行预测,成为一个十分迫切的富有挑战性的研究课题。机器学习领域的模式分类和回归分析等方法是知识发现中的重要内容,也是处理许多其它问题的核心。许多优秀的学习算法(如神经网络、支持向量机等)都是以分类为基础发展起来的。分类的作用和根本目的在于面对某一未知类别的具体事物时,能按照已知的信息将其正确的归于某一类。将某一事物正确归入某一类的方法即分类方法,研究分类方法首先要确定分类标准,而对任何事物都不存在纯客观的分类标准,任何分类都带有主观性,因此,对不同的分类标准会产生不同的分类方法。目前,机器学习方法共同的重要理论基础之一是统计学,在此基础上已有各种各样的分类方法,如:人工神经网络、贝叶斯决策、l【.近邻、决策树等等。这些传统的统计学方法将经验风险最小化(ERM)原则作为出发点,在样本数趋于无穷大的假设下进行学习,在实际问题中,样本数目往往是有限的,这些理论上非常优秀的方法在一些实际应用中的表现却可能不尽人意,传统的统计学方法面临了严峻挑战。Vapnik等人提出的统计学习理论(StatisticalLearningTheory,SLT)【l】【21是一种针对小样本情况研究统计学习规律的理论,该理论的核心思想是通过引入结构风险最小化准则(s瑚)来控制学习机器的容量,从而刻画了过度拟合与泛化能力之间的关系。在这一理论基础上产生的支持向量机(SupportVectorMachines,SVM)学习方法近年来受到广泛重视,该方法不但引入了结构风险的概念,还采用了核映射的思想,与传统方法相比,支持向量机具有的优势体现在:即克服了传统方法的大样本要求,又有效地克服了维数灾难及局部极小问 基于支持向量机的若干分类问题研究题,并在处理非线性问题时显示了其卓越的优越性。随着支持向量机技术的不断发展和推广,目前,国内外关于SVM的研究正方兴未艾,其理论研究正在不断深入发展和完善,实践应用不断拓广,已成为机器学习和数据挖掘领域的标准工具。虽然分类问题不是新的问题,现有的各种技术也在一些分类问题中表现出较好的性能,但计算机的普及应用,特别是机器学习和数据挖掘的迅速发展赋予了它新的意义,目前再次引起了人们热切的关注。如:海量高维数据的分类,无标签数据的使用,多类别数据的分类,类不平衡和代价敏感数据的分类,有序分类等等。本文正是在支持向量机这一新兴的理论背景和实际分类问题这一应用背景下,以支持向量机方法为基础,探讨了其关键技术——核函数的几何性质及若干分类问题的理论基础,并提出一些新的解决各种实际分类问题的方法,该课题的研究将扩展支持向量机的应用空间和丰富分类问题的解决途径。1.2分类问题的研究现状和研究要点1.2.1问题描述目前,基于数据的学习,逐渐引起各行各业的广泛重视,许多学者提出了“信息有效利用”的问题。“信息有效利用"的本质是,如何根据用户的特定需求从海量数据中建立模型或发现有用的知识。对计算机科学来说,这就是机器学习。自20世纪50年代,人们从仿生学的角度出发研究学习问题至今,机器学习已成为促进计算金融学、生物信息学、工业过程控制、信息安全、机器人、遥感信息处理、行星地质学等众多学科发展的重要基础之一。美国航空航天局JPL实验室的科学家Mjolsness等人在Science上撰文指出【31:“每个科学领域的科学过程都有它自己的特点,但是,观察、创立假设、根据决定性实验或观察的检验、可理解检验的模型或理论,是各学科所共有的。对这个抽象的科学过程的每一个环节,机器学习都有相应的发展,我们相信它将导致科学方法中从假设生成、模型构造到决定性实验这些所有环节的合适的、部分的自动化。当前的机器学习研究在一些基本论题上正取得令人印象深刻的进展,我们预期2 第一章绪论机器学习研究在今后若干年中将有稳定的进展"。这个提法指出,在科学研究的整个过程(观察、假设、实验、检验、模型或理论)中机器学习都扮演着重要的角色。Simon对学习的论述是:“如果一个系统能够通过执行某个过程改进它的性能,这就是学[41”。这是一个相当广泛的说明,其要点是“系统’’,它涵盖了计算系统、控制系统以及人系统等,对这些不同系统的学习,显然属于不同的科学领域。即使计算系统,由于目标不同,也分为了“从有限观察概括特定问题世界模型的机器学习"、“发现观测数据中暗含的各种关系的数据分析’’,以及“从观测数据挖掘有用知识的数据挖掘"等不同分支。由于这些分支发展的各种方法的共同目标都是“从大量无序的信息到简洁有序的知识",因此,它们都可以理解为Simon意义下的“过程”,也就都是“学习’’。本文将讨论内容限制在一个狭义的学习问题上,即,“从有限观察发现观测数据中暗含的各种关系的数据分析”的方法上。具体说就是从实际问题的一个有限的子集(样本集)出发,探求问题的内在规律(建立模型),从而对未知数据做出正确判断(分类)。这就是机器学习领域的分类问题(classification),也称为模式识别问题,在概率统计中则称为判别分析问题,在本文中我们采用“分类问题"这一术语。用数学语言可以把分类问题简单描述如下:分类问题:根据给定的训练集S={(而,乃),(吃,y2)⋯(西,M))∈(Xx聊7,其中毛∈X=Rn,以∈Y={1,-1},f=l,...,J『,寻找X=R”上的一个实值函数g(x),以便用决策函数厂(x)=s印(g(x))(1—1)推断任一模式x相对应的Y值。上述分类问题是分成两类的问题,与此类似还有分成多类的分类问题,它们的不同之处仅在于前者的输出只取两个值,而后者可以取多个值。我们把解决上述分类问题的方法称为分类学习机。3 基于支持向量机的若干分类问题研究1.2.2分类问题的研究现状现实生活中存在大量的分类问题,如:机械故障诊断、医学诊断、语音识别、人脸识别、信用评估、文本分类、网络入侵检测、图像识别等。目前,用于分类的方法很多,传统的方法有Bayesian方法、距离判别、Fisher判别、k-近邻分类以及分段线性分类等【51,现代的方法如模糊分类[61、粗糙分类‘71、神经网络和支持向量机分类等。其中具有代表性的方法是:Bayesian方法、神经网络和支持向量机方法。这些方法已在医学诊断、语音识别、文本识别、人脸识别等领域得到了广泛的应用。贝叶斯学习理论利用概率的形式来表示变量间的依赖关系,通过先验信息和样本数据来获得对未知样本的估计。先验概率既可以借助人的经验、专家的知识来指定,也可以通过分析样本数据的特点直接获得。后者要求有足够多的数据才能真正体现数据的真实分布。贝叶斯方法的优点是可以利用人的先验知识,而缺点是当假设模型与样本实际分布情况不相符时,就难以获得较好的效果。著名的kolmogorov连续性定理从数学上证明了神经网络可以以任意精度逼近任意非线性函数【8】,这为神经网络解决非线性问题提供了重要保证,也是神经网络在许多领域得到广泛应用的重要基础。目前常用的神经网络模型有BP网络、RBF(RadialBasisFunction)网络、Hopfield网络、自组织映射(Self-OrganisingMap,SOM)神经网络等,这些网络在分类研究中都有广泛的应用【9】【101。另外,神经网络同模糊理论以及遗传算法等软计算方法相结合产生了模糊神经网络、遗传神经网络等许多研究成果【ll】【121。虽然神经网络在很多领域得到了成功的应用,但其得到的理论成果并没有对一般的学习理论带来多大贡献,也就是说神经网络还缺乏严密理论体系的指导,且易出现过学习和局部极小等问题,其应用效果往往过分依赖于使用者的经验。支持向量机技术是目前泛化能力较强的学习方法之一,因其坚实的理论背景和优良的实用性能成为近年来广泛应用的分类方法,而实际问题的复杂性和实际需求的多样性也给支持向量机技术提出了许多富有挑战性的课题。4 第一章绪论1.2.3分类问题的研究要点与传统的模式分类问题不同,在算法和应用的双重驱动下,各种各样的复杂分类问题摆在了我们面前。从算法的角度看,如何处理大量非线性数据,如何提高分类算法的泛化能力,及如何对各类不同数据设计有效分类方法等问题亟待解决;从应用的角度看,目前,我们面临的观测数据与传统意义下的数据集合并不一样。在过去的日子里,数据一般是通过精心设计的试验,再仔细筛选而获得的,这些数据往往在统计上满足一定的条件(这在试验设计时就已经仔细考虑);而现在我们获得的数据是涌现性的,如网络数据、生物数据以及经济金融数据,人们不能有效地控制这些数据的产生,只能被动地接受它们。这正是我们的困难所在,也是机器学习领域未来发展的重要研究方向。目前,在实际应用中经常出现的,还需要进一步从理论和应用去完善的分类问题主要有以下几种:(1)类不平衡与代价敏感分类一般的学习机器在分类时总是假定各类别样本数是均衡的,且误分代价是相等的。在实际分类问题中,不同类别的样本数目往往并不相等。以两类分类为例,所谓类不平衡分类问题是指,待分的两类中一类的样本数目远大于另一类的样本数目,当数目较少的类的样本数占1‰3%时,就认为是极度不平衡数据集【13】。在医疗诊断,机械故障诊断,欺诈检测,入侵检测和信用评估等领域,各类数据的分布通常不平衡,即不同类别的样本数相差较多,如:医疗诊断中“病人"样本通常少于“健康人”样本,机械故障诊断中“故障”样本通常少于“正常"样本等。且在医疗诊断、信用卡欺诈检测、网络入侵、故障识别等问题中,不同样本的误分类代价通常不相等,如将“健康人"诊断为“病人”,和将“病人”诊断为“健康人"的误分代价是有很大差别的,国际上将这种误分代价不同的学习问题称为“代价敏感学习(cost—sensitivelearning)”。由于现有的分类算法(如决策树和神经网络等)大多假定待分数据中各类样本数是均衡的,且每个或每类样本的误分代价是相同的,而致力于提高分类器的整体泛化精度,导致在类不平衡或代价敏感问题中分类器的结果偏向于大样本类别,或造成较大的实际损失。因此,在这类问题中,仅凭全局精度评价分类器的优劣是不够的。5 基于支持向量机的若干分类问题研究类不平衡与代价敏感问题涉及到的应用领域非常广泛,目前,已成为机器学习和数据挖掘领域研究的一个新的热点。国内外的众多学者如:Domingos[14】,Margineantu[151,Elkan[161,BianeaZadrozny[171,周志华,刘胥影【18】f191等人已在这方面开展了研究。正如Saitta在MLnetII工程的技术路线图中描述的一样:“融合了代价的学习问题是未来机器学习领域的一个重大挑战[201”。(2)多类分类目前,两分类问题已有较好的解决方法,在实际应用中,多分类问题(类别数大于2)非常普遍,如文本分类、信用评估等。对于这些类别数目较多的分类问题,仍缺乏有效的解决方法。目前已有的多分类方法大至可分为两种,一是将多分类问题分解为多个两分类问题,再将这些分类结果采用某种组合策略组合起来,得到最终的分类结果。如基于支持向量机的一对一(one.against.one)t211、一对多(one.against-res0[221、有向无环图(DAGSVM)等方法【231,及CecilioAngulo[241等人在一对一、一对多方法的基础上提出的一对一对多的方法(KSVCR)等。这些方法可以直接利用原有的SVM两分类方法,不过需要构造多个子分类器,且可能在决策输出时产生不可分区域等问题。另一种途径是在一个优化问题中同时解决多分类问题【221【251,这种方法尽管看起来简洁,但是在最优化问题求解过程中的变量远远多于第一类方法,训练速度远不及第一类方法,而且在分类精度上也不占优,尤其当训练样本数非常大时,这一问题更加突出。如何针对实际多分类问题提出更有效的解决方法,是许多学者在不断努力创新的一个方向。(3)有序分类有序分类是一种特殊的多分类问题,当分类对象的输出标识具有某种自然序的关系时,我们称这种多分类问题为有序分类。如:根据影迷的喜好程度将电影分为若干类(如:Benchmark数据库中EachMovie数据集),对接收到的大量电子邮件按重要程度分成若干等级来查看,或银行根据客户的信用情况对客户进行信用等级的划分等。目前,机器学习领域中大部分多分类算法都是将有序和无序分类问题同等对待,即假定分类变量是无序的,其标识可用数值表示是第几类,但此数值无排序意义,仅仅是一个代号。这样虽然是可行的,但对有序问题而言,却忽略6 第一章绪论了问题本身所具有的“序’’的信息。W.Cohen,R.Schapire,K.CrammerandY.Singer【26】【271,E.FrankandM.Hall[281,R.Herbfich,T.Graepel,K.Obermayer【29】,AiilnonShashua,AnatLevin[30】等人从有序问题的结构和大间隔分类等方面,对有序分类问题进行了深入研究,并提出一些融合了“序”的信息的实用算法。此外,机器学习中长期存在的,可能永远也无法得到最终解决,但又非常重要的几个问题:提高泛化能力、提高学习速度、提高可理解性,以及在走向实用过程中出现的高维数据的处理、未标记数据的利用、有结构数据的学习及领域知识的利用等,也都是分类问题研究中需要不断努力去解决的。1.3论文的主要内容和结构论文从理论研究和解决各种实际分类问题方法研究两方面出发,以支持向量机理论为基础,对若干分类问题进行了扩展研究,提出一些新的思想和方法。全文共分七章,具体内容安排如下:第二章首先回顾了机器学习的主要内容、学习问题的一般表示和经验风险最小化准则,以及学习机器的复杂性与推广能力之间的关系,并在此基础上介绍了统计学习理论的基本知识,主要包括VC维、推广性的界和结构风险最小化原则;接着介绍了支持向量机的基础理论知识及其优点,最后对支持向量机的发展现状进行了总结和讨论。第三章重点从特征空间的几何度量出发,对核函数所蕴涵的黎曼度量、距离度量及角度度量,进行了详细分析;接着深入探讨高斯径向基核函数的几何性质,并对映射、核与度量间的对应关系进行了分析,指出SVM方法本质上依赖于度量。第四章首先概述了目前解决类不平衡与代价敏感分类问题的方法,接着从特征空间内嵌流形的几何结构入手,通过对特征空间局部区域的放大和对半径间隔界的控制,提出一种新的基于黎曼度量的类不平衡分类方法,最后在人工数据集和实际数据集上对该方法的性能进行了验证。第五章首先通过对一对多方法中采用不同核参数所映射的特征空间几何度量的分析,提出一种基于相对间隔的比较策略,对各决策函数输出值的可比性进7 基于支持向量机的若干分类问题研究行了深入分析;然后对一对一、一对多等分解多分类方法中存在的不可分区域进行研究,针对一些特殊的应用问题,提出一种新的多分类方法一模糊输出支持向量机,最后通过一系列实验,对本章给出的结论和方法进行了验证。第六章对有序分类问题进行了研究,首先概述了目前解决有序分类问题的一般方法,接着从解决普通多分类问题与有序分类问题中函数集容量,即:VC维和分级维的角度,比较了有序与无序分类问题的复杂度,提出一种基于支持向量机的改进的内嵌空间法,最后将其应用在实际有序分类问题中,通过实验比较说明该方法的有效性。第七章总结全文,并对今后的工作提出了展望。8 第二章支持向量机理论基础第二章支持向量机理论基础在利用实际数据进行建模的过程中,传统统计方法对数据要求较高,一些实际应用的效果不理想;而智能学习算法在理论上又缺乏实质性的进展,对很多现象无法作机理上的解释。针对这些问题,Vapnik等人从六七十年代起开始致力于小样本情况下机器学习规律的研究工作,建立了一套全新的理论体系一一统计学习理论(StatisticsLearningTheory,SLT),并在此基础上发展了支持向量机(SupportVectorMachine,SVM)这一种通用的学习算法,该算法目前已成为机器学习和数据挖掘领域的标准工具,本章将对这一理论做详细的介绍。2.1机器学习的主要问题基于数据的机器学习是现代智能技术中的重要方面,其目的是根据给定的训练样本求对某系统输入输出之间依赖关系的估计,使它能够对未来数据或无法观测的数据进行预测,以实现为人类更好服务的目的。迄今为止,关于机器学习的理论算法较多。其实现方法之一是经典的(参数)统计估计方法,包括模式识别等在内。现有机器学习方法共同的重要理论基础之一是统计学。参数方法正是基于传统统计学的,在这种方法中,参数的相关形式是已知的,训练样本用来估计参数的值。这种方法有很大的局限性:首先,它需要已知样本分布形式,这需要花费很大代价;其次,传统统计学研究的是样本数目趋于无穷大时的渐近理论,现有学习方法也多是基于此假设,在现实问题中,样本数目通常是有限的,传统以无穷多为假设来推导的各种算法,希望在样本较少时也能得到较好的表现,然而,事实很难做到这一点。另一种方法是经验非线性方法,如人工神经网络(ArtificialNeuralnetwork,ANN)。这种方法利用已知样本建立非线性模型,克服了传统参数估计方法的困难。但是,这种方法缺乏一种统一的数学理论,且过分依赖于使用者的经验和技巧。针对这些问题,Vapnik等人从六七十年代起开始致力于小样本情况下机器学习规律的研究工作,建立了一套全新的理论体系——统计学习理论,并在此基础上发展了支持向量机这一种通用的学习算法。到九十年代中期,随着其理论的不断发展和成熟,也由于神经网络等学习方法在理论上缺乏实质性进展,9 基于支持向量机的若干分类问题研究统计学习理论受到越来越广泛的重视。目前,关于SVM的研究正方兴未艾,其理论正在不断深入发展,实践应用不断拓广,已成为机器学习和数据挖掘领域的标准工具,并将有力地推动机器学习理论和技术的发展。2.1.1学习问题的一般表示学习问题可以一般地表示为:变量Y与x存在一定的未知依赖关系,即遵循某一未知的联合概率分布F(x,y),(X和Y之间的确定性关系可以看作是其特例),机器学习问题就是根据,个独立同分布观测样本fix,,Y1),(恐,y2)⋯(而,乃))(2-1)其中,t∈R”,Yj∈R,f=1,...,,在一组函数{f(x,co))中寻求一个最优的函数f(x,‰)对依赖关系进行估计,使期望风险尺(缈)=IL(y,f(x,w))dF(x,y)(2—2)最小。其中,{f(x,co))称作预测函数集,缈为函数的广义参数,{f(x,oJ))可以表示任何函数集;L(y,f(x,w))称为损失函数,它是评价预测准确程度的一种度量,不同类型的学习问题有不同形式的损失函数。预测函数也称作学习函数、学习模型或学习机器。有三类基本的机器学习问题,即模式识别(分类问题)、函数逼近和概率密度估计。对模式识别问题,输出Y是类别标号,两类情况下,Y={O,1)或{l,一1),预测函数称作指示函数,损失函数可以定义为:三cJ,,厂c工,∽,={:;二;{二::;c2-3,使风险最小就是Bayesian决策中使错误率最小。在函数逼近问题中,Y是连续变量(这里假设为单值函数),损失函数可定义为:L(y,f(x,w))=(y-f(x,w))2(2-4)即采用最小平方误差准则。而对概率密度估计问题,学习的目的是根据训练样10 第二章支持向量机理论基础本确定x的概率密度。记估计的密度函数为p(x,彩),则损失函数可以定义为2.1.2经验风险最小化三(p(五缈))---一logp(x,叻(2—5)在上面的问题表述中,学习的目标在于使期望风险最小化,由于联合分布F(x,Y)是未知的,所以我们可以利用的信息只有样本(2-1),而式(2-2)的期望风险并无法计算和最小化,因此,传统的学习方法中采用了所谓经验风险最小化(EmpiricalRiskMinimum,ERM)准则,即用样本定义经验风险:1fR唧(国)=亭∑三(咒,厂(而,国))(2-6)Ii=1式(2—6)作为对式(2-2)的估计,设计学习算法使它最小化。对损失函数式(2-3),经验风险就是训练样本错误率;对式(2.4)的损失函数,经验风险就是平方训练误差;而采用式(2.5)损失函数的ERM准则就等价于最大似然方法。事实上,用ERM准则代替期望风险最小化并没有理论上的保证,只是直观上合理的想法,但这种思想却在多年的机器学习方法研究中占据了主要地位。人们多年来将大部分注意力集中到如何更好地最小化经验风险上,而实际上,即使可以假定当,趋向予无穷大时式(2.6)趋近于式(2.2),在很多问题中的样本数目也离无穷大相去甚远。那么在有限样本下ERM准则能保证得到较小的真实风险吗?2.1.3复杂性与推广能力ERM准则不成功的一个典型例子是神经网络的过学习问题。最初,很多研究者都将注意力集中在如何使R。。(w)更小,但他们很快就发现,训练误差小并不总能导致好的预测效果。某些情况下,训练误差过小反而会导致推广能力(即,泛化能力,指学习机器对未知样本进行正确预测的能力)的下降,即真实风险的增加,这就是过学习问题。之所以出现过学习现象,一是因为样本不充分,二是学习机器设计不合理,这两个问题是互相关联的。设想一个简单的例子,假设有一组实数样本{x,y),取值在[0,1】之间。那么不论样本是依据什么模型 基于支持向量机的若干分类问题研究产生的,只要用函数f(x,口)=sin(ax)去拟合它们(口是待定参数),总能够找到一个口,使训练误差为零,但显然得到的这个“最优”函数并不能正确代表真实的函数模型。究其原因,是试图用一个十分复杂的模型去拟合有限的样本,导致学习机器丧失了推广能力。同理,在神经网络中,若对有限的样本来说网络学习能力过强,足以记住每个样本,此时经验风险很快就可以收敛到很小甚至零,但却根本无法保证它对未来样本能给出好的预测。学习机器的复杂性与推广性之间的这种矛盾同样可以在其它学习方法中看到。文献㈨给出了一个实验例子,在有噪声条件下用模型Y=x2产生lO个样本,分别用一个一次函数和一个二次函数根据ERM原则去拟合,结果显示,虽然真实模型是二次,但由于样本数有限且受噪声的影响,用一次函数预测的结果更好。同样的实验进行了100次,71%的结果是一次拟合好于二次拟合。由此可看出,在有限样本情况下:1.经验风险最小并不一定意味着期望风险最小;2.学习机器的复杂性不但应与所研究的系统有关,而且要和有限数目的样本相适应。这就是有限样本情况下学习机器的复杂性和推广能力之间的矛盾。我们需要一种能够指导我们在小样本情况下建立有效的学习和推广方法的理论。统计学习理论的发展和完善为此问题的解决提供了坚实的理论基础和有效的学习方法。2.2统计学习理论统计学习理论是一种专门研究小样本情况下机器学习规律的理论。该理论针对小样本统计问题建立了一套新的理论体系,在这种体系下的统计推理规则不仅考虑了对渐近性能的要求,而且追求在现有有限信息的条件下得到最优结果。Vapnik等人从六、七十年代开始致力于此方面研究,到九十年代中期,随着其理论的不断发展和成熟,也由于神经网络等学习方法在理论上缺乏实质性进展,统计学习理论开始受到越来越广泛的重视。其主要内容包括四个方面【1】【2】:1.经验风险最小化准则下统计学习一致性(Comistency)的条件;12 第二章支持向量机理论基础2.在这些条件下关于统计学习方法推广性的界的结论;3.在这些界的基础上建立的小样本归纳推理准则;4.实现新的准则的实际方法(算法)。其中,最具有指导性的理论结果是推广性的界,它揭示了经验风险和真实风险之间的关系,与此相关的一个核心概念是VC维(Vapnik-ChervonenkisDimension)。2.2.1VC维为了研究学习过程一致收敛的速度和推广性,统计学习理论定义了一系列有关函数集学习性能的指标,其中最重要的是VC维。在分类(模式识别)方法中vC维的直观定义是:对一个指示函数集,如果存在,个样本能够被函数集中的函数按所有可能的2。种形式分开,则称函数集能够把,个样本打散;函数集的VC维就是它能打散的最大样本数目,。有界实函数的VC维可以通过用一定的阈值将它转化成指示函数来定义。若对任意数目的样本都有函数能将它们打散,则函数集的VC维是无穷大。例如函数集:F={f(X,口)=sgn(sin(ax)),口∈R}(2—7)的VC维就是无穷大。VC维反映了函数集的学习能力,VC维越大则学习机器越复杂(容量越大)。遗憾的是,目前尚没有通用的关于任意函数集VC维计算的完整理论,只对一些特殊的函数集知道其VC维。比如在11维实数空间中线性分类器和线性实函数的VC维是n+l,对于一些比较复杂的学习机器(如神经网络),其VC维除了与函数集(神经网络结构)有关外,还受学习算法等的影响,其确定更加困难。对于给定的学习函数集,如何(用理论或实验的方法)计算其VC维是当前统计学习理论中有待研究的一个问题【321。2.2.2推广性的界统计学习理论系统的研究了对于各种类型的函数集,经验风险和实际风险 基于支持向量机的若干分类问题研究之间的关系,即推广性的界【21。关于两分类问题,结论是:对于指示函数集中的所有函数,经验风险R唧@)和实际风险R@)之间以至少卜rl的概率满足如下关系:R(a)sR唧(口)+(2-8)其中h是函数集的VC维,.『是样本数。上式可简单的表示成:R(口)≤Re.p(口)+≯(Z/功(2-9)这一结论从理论上说明了学习机器的实际风险是由两部分组成:一部分是经验风险尺一@),另一部分称作置信范围矽(t/h),它和学>-j机器的VC维及训练样本数有关。可以看出,在有限样本的情况下一味地追求经验风险最小是没有意义的,因为此时学习机器可能过于复杂,导致置信范围变大,从而使真实风险增大,这也就从机理上解释了神经网络的过学习现象。为了使学习机器的推广性较好,必须同时最小化经验风险和置信范围,因此,对学习机器进行容量控制(VC维)是极其重要的。2.2.3结构风险最小化式(2.8)导出了一种控制学习机器推广能力的新思想:为了通过最小化经验风险来达到实际风险的最小界,应该采用VC维最小的学习机器(函数集)。这两种要求,即最小化经验风险和采用VC维最小的学习机器,是相互矛盾的,为了最小化经验风险,我们必须从更广的函数集中选取函数,而不是从VC维小的窄函数集中选取函数。因此,为了找出最优解,我们必须在对给定数据的逼近精度和逼近函数的复杂性之间寻求最佳折衷。为了实现这种折衷,统计学习理论提出一种新的策略,即把函数集构造为一个函数子集序列,使各个子集按照VC维的大小排列;在每个子集中寻找最小经验风险,在子集间折衷考虑经验风险和置信范围,取得实际风险的最小,如图2.1所示,这种思想称作结构风险最小化(StructuralRiskMinimization,SRM)或有序风险最小化【lJ。实现SI蝴原则可以有两种思路,一是在每个子集中求最小经验风险,然后选择使最小经验风险和置信范围之和最小的子集。这种方法比较费时,在子集14 第二章支持向量机理论基础数目很大甚至无穷时是不可行的。第二种思路是设计函数集的某种结构,使在每个子集中都能取得零经验风险,然后只需选择适当的子集使置信范围最小,则该子集中使经验风险最小的函数就是最优函数。支持向量机实际上就是这种思想的具体实现。文【321中讨论了一些函数子集结构的例子,和如何根据SRM准则对某些传统方法进行改进的问题。风险围险函数集子集:slcs2cs3VC维:hl
此文档下载收益归作者所有