支持向量机-中科院计算所智能开放室曾立

支持向量机-中科院计算所智能开放室曾立

ID:41532263

大小:700.06 KB

页数:39页

时间:2019-08-27

支持向量机-中科院计算所智能开放室曾立_第1页
支持向量机-中科院计算所智能开放室曾立_第2页
支持向量机-中科院计算所智能开放室曾立_第3页
支持向量机-中科院计算所智能开放室曾立_第4页
支持向量机-中科院计算所智能开放室曾立_第5页
资源描述:

《支持向量机-中科院计算所智能开放室曾立》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、SupportVectorClassificationDoctoralSeminar数据挖掘中的新方法-支持向量分类机原理中科院计算所智能开放室曾立zengl@ics.ict.ac.cn提纲SVM有关概念介绍SVM分类问题的数学表示和推导简单的最优分类面广义最优分类面非线性最优分类面SVM分解算法HistorySVM是一种基于统计学习理论的机器学习方法,它是由Boser,Guyon,Vapnik在COLT-92上首次提出,从此迅速发展起来,目前已经在许多智能信息获取与处理领域都取得了成功的应用。关于SVM思想: 通过某种事先选择的非线性映射(核函数)将输入向量映射到一个高

2、维特征空间,在这个空间中寻找最优分类超平面。使得它能够尽可能多的将两类数据点正确的分开,同时使分开的两类数据点距离分类面最远。途径: 构造一个约束条件下的优化问题,具体说是一个带线性不等式约束条件的二次规划问题(constrainedquadraticprograming),求解该问题,构造分类超平面,从而得到决策函数。提纲SVM有关概念介绍SVM分类问题的数学表示和推导简单的最优分类面广义最优分类面非线性最优分类面SVM分解算法ayestdenotes+1denotes-1fxf(x)=sgn(w.x+b)Copyright©2001,2003,AndrewW.Moor

3、eHowwouldyouclassifythisdata?ayestdenotes+1denotes-1fxf(x)=sgn(w.x+b)Copyright©2001,2003,AndrewW.MooreHowwouldyouclassifythisdata?ayestdenotes+1denotes-1fxf(x)=sgn(w.x+b)Copyright©2001,2003,AndrewW.MooreHowwouldyouclassifythisdata?ayestdenotes+1denotes-1fxf(x)=sgn(w.x+b)Copyright©2001,200

4、3,AndrewW.MooreHowwouldyouclassifythisdata?分类问题的数学表示已知:训练集包含个样本点:说明:是输入指标向量,或称输入,或称模式,其分量称为特征,或属性,或输入指标;是输出指标,或输出.问题:对一个新的模式,推断它所对应的输出是1还是-1.实质:找到一个把上的点分成两部分的规则.2维空间上的分类问题)n维空间上的分类问题.根据给定的训练集其中,,寻找上的一个实值函数,用决策函数判断任一模式对应的值.可见,分类学习机——构造决策函数的方法(算法),两类分类问题多类分类问题线性分类学习机非线性分类学习机分类学习方法SVM分类问题大致有

5、三种:线性可分问题、近似线性可分问题、线性不可分问题。最大间隔原则考虑图1.2.1(a)——上的线性可分的分类问题.这里有许多直线能将两类点正确分开.如何选取和?简单问题:设法方向已选定,如何选取?解答:选定平行直线极端直线和取和的中间线为分划直线如何选取?对应一个,有极端直线,称和之间的距离为“间隔”.显然应选使“间隔”最大的。最大间隔法的直观导出数学语言描述:给定适当的法方向后,这两条极端直线可表示为调整,使得令,则两式可以等价写为与此相应的分划直线表达式:如何计算分划间隔?考虑2维空间中极端直线之间的间隔情况求出两条极端直线的距离:分划直线表达式为“间隔”为极大化“

6、间隔”的思想导致求解下列对变量和的最优化问题说明:只要我们求得该问题的最优解,从而构造分划超平面,求出决策函数。上述方法对一般上的分类问题也适用.原始问题求解原始问题?为求解原始问题,根据最优化理论,我们转化为对偶问题来求解对偶问题为原始问题中与每个约束条件对应的Lagrange乘子。这是一个不等式约束条件下的二次函数寻优问题,存在唯一解1.线性可分问题计算,选择的一个正分量,并据此计算事实上,的每一个分量都与一个训练点相对应。而分划超平面仅仅依赖于不为零的训练点,而与对应于为零的那些训练点无关。称不为零的这些训练点的输入为支持向量(SV)构造分划超平面,决策函数根据最优

7、解2.近似线性可分问题不要求所有训练点都满足约束条件,为此对第个训练点引入松弛变量(SlackVariable),把约束条件放松到。体现了训练集被错分的情况,可采用作为一种度量来描述错划程度。两个目标:1.间隔尽可能大2.错划程度尽可能小显然,当充分大时,样本点总可以满足以上约束条件。然而事实上应避免太大,所以需在目标函数对进行惩罚(即“软化”约束条件)2.近似线性可分问题因此,引入一个惩罚参数,新的目标函数变为:体现了经验风险,而则体现了表达能力。所以惩罚参数实质上是对经验风险和表达能力匹配一个裁决。当时,近似线性可分SVC

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。