欢迎来到天天文库
浏览记录
ID:21988095
大小:367.42 KB
页数:11页
时间:2018-10-21
《svm难点解读》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、SVM难点解读助教:曹扬直观理解为何要最大化间隔如右图所示,假设我们已经学习了一个模型,将平面线性分割为两部分。A离分界面很远,所以我们很有信心A的类型应该是x。C离分界面很近,很小的波动就可能使它跑到分界面下方,所以我们对C的类型是x信心不大。直观理解为何要最大化间隔总的来说,一个点离分界面越远,我们对预测结果就越有信心。因此,我们希望模型能让所有训练数据都离分界面尽量远。一个例子:某次考试以60分为界,高于60分定为优生,低于60分定为差生。某学生成绩为90分,我们很有信心他是优生;某学生成绩为65分,我们不太确定他确实为优生。SVM记号(接下来讨
2、论的基础)输入为。输出为。(注意不是)这样,参数为的SVM的表达式可写为其中,为系数,为截距(SVM中通常会把截距单独表示出来,而不是在中加一项常数1以便用表示截距)。从表达式可知该SVM分界面为。SVM中的概念(接下来讨论的基础)函数间隔几何间隔函数间隔给定一个训练数据,和参数为的SVM,该训练数据在该SVM下的函数间隔定义为从该表达式可以看出,当和一定的时候,离分界面越远的训练数据函数间隔越大(可根据的正负分情况讨论得出)。将上图想象为一个3维空间。该SVM输入为2维,因此为三维空间中一个平面。分界面即为,也就是与水平面相交形成的直线。比较A点和B
3、点的函数间隔可见A的函数间隔较大函数间隔但是,函数间隔并不适合作为优化的依据。假设我们把和都扩大为原来2倍,由函数间隔的定义可知,函数间隔也会扩大为原来2倍。但这样的扩大是没有意义的,因为SVM的分界面并没有变(依然是)。所以,我们需要在满足某种归一化条件的基础上来最大化函数间隔。通常这个归一化条件是。这就是几何间隔的定义。分界面没有变化,函数间隔扩大为原来2倍,没有意义。几何间隔当我们限制时,函数间隔就是几何间隔。(可以想象为固定平面与水平面的夹角为45°,此时构成的三角形为等腰直角三角形,函数间隔与几何间隔分别为两条腰,所以相等)从右图可以看出。几
4、何间隔,其实就是点到分界面的距离。(这也是几何间隔的定义)SVM要最大化间隔,需要的是最大化几何间隔,也就是最大化时的函数间隔。函数间隔几何间隔一个等腰直角三角形如何最大化几何间隔最大化几何间隔,是指通过调整SVM的两个模型参数(和),来使得所有训练数据中最小的几何间隔(注意,每个训练数据都有自己的几何间隔)最大。翻译为数学表达式,可得s.t.上式中是我们优化的对象。第一个限制条件说明所有训练数据的间隔都大等于,第二个限制条件说明这里的间隔是几何间隔。如何最大化几何间隔上述表达式直接求解很困难。通过一定的转化(大家可以自行尝试),我们可以得到右图中的表
5、达式。然后就可以用最优化的方法来解决该问题(超出本课程讨论范围)小结以上文字比较直观地解释了SVM的基本思想。(并不是非常严谨)SVM还可以通过核函数,将线性的分界面扩展为非线性的分界面。
此文档下载收益归作者所有