欢迎来到天天文库
浏览记录
ID:40294666
大小:4.99 MB
页数:114页
时间:2019-07-30
《第5章 支持向量机和核函数》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第5章支持向量机和核函数“支持向量机方法是建立在统计学习理论的VC维理论和结构化风险最小原理基础上”结构化风险结构化风险=经验风险+置信风险经验风险=分类器在给定样本上的误差置信风险=分类器在未知样本上分类的结果的误差一般模式识别方法的问题1)传统统计方法基于经验风险最小化,经验风险最小不等于期望风险最小,不能保证分类器的推广(泛化)能力。经验风险只有在样本数无穷大趋近于期望风险,即在有限样本情况下,经验风险最小并不意味着期望风险最小。需要已知样本的分布形式推广能力是指:将学习机器(即预测函数,或称学习函数、学习模型)对未来输出进行正确预测的能力。“过学
2、习问题”:某些情况下,当训练误差过小反而会导致推广能力的下降。例如:对一组训练样本(x,y),x分布在实数范围内,y取值在[0,1]之间。无论这些样本是由什么模型产生的,我们总可以用y=sin(w*x)去拟合,使得训练误差为0.机器学习本质上就是一种对问题真实模型的逼近,但真实模型一定是不知道的。那么我们选择的假设与问题真实解之间究竟有多大差距,我们就没法得知。这个与问题真实解之间的误差,就叫做风险。我们选择了一个假设后,真实误差无从得知,但我们可以用某些可以掌握的量来逼近它。最直观的想法就是使用分类器在样本数据上的分类的结果与真实结果(因为样本是已经标
3、注过的数据,是准确的数据)之间的差值来表示。这个差值叫做经验风险Remp(w)。以前的机器学习方法都把经验风险最小化作为努力的目标,但后来发现很多分类函数能够在样本集上轻易达到100%的正确率,在真实分类时却一塌糊涂(即所谓的推广能力差,或泛化能力差)。原因:选择了一个足够复杂的分类函数,能够精确的记住每一个样本,但对样本之外的数据一律分类错误。统计学习引入了泛化误差界的概念,就是指真实风险应该由两部分内容刻画,一是经验风险,代表了分类器在给定样本上的误差;二是置信风险,代表了我们在多大程度上可以信任分类器在未知样本上分类的结果。很显然,第二部分是没有办
4、法精确计算的,因此只能给出一个估计的区间,也使得整个误差只能计算上界,而无法计算准确的值。置信风险与两个量有关,一是样本数量,显然给定的样本数量越大,我们的学习结果越有可能正确,此时置信风险越小;二是分类函数的VC维,VC维越大,推广能力越差,置信风险会变大。2)经验非线性方法如人工神经网络(ANN)利用已知样本建立非线性模型。缺点:缺乏一种统一的数学理论统计学习理论—针对小样本统计估计和预测的最佳理论1.统计学习理论基本思想由贝尔实验室Vapnik于1992年首次提出研究小样本下机器学习规律的理论。针对小样本统计问题,建立了一套新的理论体系基本思想:折
5、衷考虑经验风险和推广的置信界限,取得实际期望风险的最小化。即根据有限样本信息在模型复杂性和学习能力之间寻求最佳折中两大核心概念:VC维和结构风险最小化。在这一理论基础上,发展了一种新的通用模式识别方法——支持向量机(SVM)发展迅速,已经在许多领域都取得了成功的应用。VC维的概念:(VC是取Vapnik和Chervonenkis名字的首字而成)描述函数集或学习机器的复杂性的指标,即描述机器学习能力的重要指标样本数量,给定的样本数量越大,学习结果越有可能正确,此时置信风险越小;分类函数的VC维,VC维越大,推广能力越差,置信风险会变大。提高样本数量,降低
6、VC维,降低置信风险。以前机器学习的目标是降低经验风险,要降低经验风险,就要提高分类函数的复杂度,导致VC维很高,VC维高,置信风险就高,所以,结构风险也高。----这是SVM比其他机器学习具有优势的地方VC维的引入打散:若存在一个有h个样本的样本集,被一函数集里的某个函数按照所有可能的2h种形式分为两类,则称函数集能够把样本数为h的样本集打散(shattering)。若对于任意的样本数,总能找到一个样本集能够被这个函数集打散,则函数集的VC维就是无穷大。函数集的vc维:用这个函数集中的函数所能够打散的最大样本集的样本数目。也就是说,如果存在h个样本的样
7、本集能够被函数集打散,而不存在有h+1个样本的样本集能被函数集打散,则函数集的VC维就是h。例如:3个样本被线性分类器打散的情况有2h=23=8种分类形式能打散VC维为3不能打散VC维是目前为止对函数集学习性能的最好描述指标。但遗憾的是目前尚没有通用的关于如何计算任意函数集的VC维的理论。VC维是目前为止对函数集学习性能的最好描述指标。但遗憾的是目前尚没有通用的关于如何计算任意函数集的VC维的理论。结构风险最小化的思想Vapnik证明,期望风险与经验风险之间的关系满足如下公式:其中n表示样本数,h为学习机器的VC维,称为置信区间。是随n/h增大而减小的
8、函数。VC维h越大,越大,经验风险和期望风险之间的偏差越大。这样即使在经验误差很
此文档下载收益归作者所有