欢迎来到天天文库
浏览记录
ID:59242071
大小:963.50 KB
页数:58页
时间:2020-09-22
《模式识别导论-支持向量机ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、SupportVectorMachine-支持向量机简介报告概览系统辨识和模式识别问题一般描述及存在问题统计学习理论基本思想支持向量机算法线性可分近似线性可分非线性可分SVM软件包故障诊断中的应用报告概览弗拉基米尔·万普尼克,VladimirNaumovichVapnik,俄罗斯统计学家、数学家。他是统计学习理论(StatisticalLearningTheory)的主要创建人之一,该理论也被称作VC理论(VapnikChervonenkistheory)。1958年,硕士学位,1964年,他于莫斯科的控制科学学院获得博士学位。在该校工作到1990年。1
2、995年,他被伦敦大学聘为计算机与统计科学专业的教授。1991至2001年间,他工作于AT&T贝尔实验室(后来的香农实验室),并和同事发明了支持向量机理论。他们为机器学习的许多方法奠定了理论基础。2002年,他工作于新泽西州普林斯顿的NEC实验室。他同时是哥伦比亚大学的特聘教授。2006年,他成为美国国家工程院院士。万普尼克是支持向量机的机器学习Vapnik–Chervonenkis理论的联合创建人,他获得了众多奖项。如今则成为了Facebook人工智能实验室的成员。系统辨识和模式识别问题一般描述系统(S)输入x输出y从给定的函数集Ω中选择出能够最好地逼
3、近系统响应的函数ω系统辨识和模式识别问题一般描述已知:n个观测样本,(x1,y1),(x2,y2)……(xn,yn)求:最优函数y=f(x,w),这个函数系统辨识中称为辨识模型,模式识别问题中称为分类器。满足条件:期望风险最小损失函数模式识别问题回归问题期望风险R(w)要依赖联合概率F(x,y)的信息,实际问题中无法计算。一般用经验风险Remp(w)代替期望风险R(w)现存问题经验风险最小不等于期望风险最小,不能保证学习机的推广能力.算法或方法对未来输出进行正确预测的能力成为推广能力或泛化能力。从概率论中的大数定律可知:经验风险只有在样本数无穷大趋近于期
4、望风险,需要非常多的样本才能保证学习机的性能。某些情况下,当经验风险过小时,推广能力反而下降,这就是神经网络中令人头疼的所谓过学习(overfitting)问题。使经验风险最小的点与期望风险最小的点并非同一个点Remp和R的关系举例假设我们有一组训练样本(x,y),x分布在实数范围内,而y取值在[0,1]之间,那么不论这些样本是依据什么函数模型产生的,只要我们用一个函数f(x,a)=sin(ax)来拟合这些样本,其中a是待定参数,总能够找到一个a使训练误差为零,但显然这个“最优函数”不能正确代表原来的函数模型。原因就是试图用一个复杂的模型来拟合有限的样本
5、,结果导致丧失了推广能力。神经网络中,如果对于有限的训练样本来说网络的学习能力过强,足以记住每一个训练样本,此时经验风险很快可以收敛到很小甚至零,但却根本无法保证它对未来新的样本的能够得到好的预测。结论:在有限样本情况下,经验风险最小并不意味着期望风险最小。统计学习理论基本思想统计学习理论由贝尔实验室Vapnik于1992年首次提出。研究小样本下机器学习规律的理论。基本思想:折衷考虑经验风险和推广的置信界限,取得实际期望风险的最小化。两大核心:VC维和结构风险最小化。VC维的概念描述函数复杂性的指标假如存在一个由h个样本的样本集能够被一个函数集中的函数按
6、照所有可能的2h种形式分为两类,则函数集能够把样本数为h的样本集打散(shattering)。函数集的vc维就是用这个函数集中的函数所能够打散的最大样本集数的样本数目。3个样本被线性分类器打散的情况VC维举例VC维是目前为止对函数集学习性能的最好描述指标。但遗憾的是目前尚没有通用的关于如何计算任意函数集的VC维的理论。结构风险最小化的思想Vapnik证明,期望风险与经验风险之间的关系满足如下公式:其中n表示样本数,h为学习机器的VC维,称为置信区间。是随n/h增大而减小的函数。从上面可以看出,学习机器的VC维h越大,越大经验风险和期望风险之间的偏差越大。
7、这样即使在经验误差很小的情况下,其推广误差会越大。结构风险最小化思想将函数集构造为一个函数子集序列,使各个子集按照VC维的大小(亦即φ的大小)排列;在每个子集中寻找最小经验风险,在子集间折衷考虑经验风险和置信界限,取得实际风险的最小.经验风险最小化思想图示举例:神经网络的构造过程先确定网络结构:网络层数,每层节点数相当于VC维确定,确定。通过训练确定最优权值,相当于最小化。目前存在的问题是神经网络结构的确定大多是凭经验选取,有一定的盲目性,无法确定泛化的置信界限,所以无法保证网络的泛化能力。即使经验误差很小,但可能推广或泛化能力很差。这就是神经网络中的过
8、学习难题。分类超平面的一些基本概念在两类分类问题中,通常用g(x)表示分类平面。
此文档下载收益归作者所有