资源描述:
《线性口袋算法改进了线性感知器算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、线性口袋算法改进了线性感知器算法,能够直接处理线性不可分问题。1、支持向量机理论1、SVM从线性可分情况下的最优分类面发展而来。H为分类线,H1,H2分别为过各类中离分类线最近的样本且平行于分类线的直线,它们之间的距离叫做分类间隔(margin)。推广到高维空间,最优分类线就变为最优分类面。2、最优分类面就是要求分类线不但能将两类正确分开(训练错误率为0),且使分类间隔最大。3、SVM考虑寻找一个满足分类要求的超平面,并且使训练集中的点距离分类面尽可能的远,也就是寻找一个分类面使它两侧的空白区域(margin)最大。4、过两类样本中离分类面最近的点且平行于最优分类面的超平面上H1,H2的
2、训练样本就叫做支持向量。2、广义最优分类面假定训练数据可以被一个超平面分开我们进行正归化此时分类间隔等于使最大间隔最大等价于使最小我们可以对它进行归一化,使得所有样本都满足,即离分类面最近的样本满足,这样分类间隔就等于。因此要求分类间隔最大,就是要求最小。而要求分类面对所有样本正确分类,就是要求满足。因此,满足上面公式且使最小的分类面就是最优分类面。最优分类面问题可以表示成约束优化问题MinimizeSubjectto定义Lagrange函数求偏导:得将上式代入拉格朗日函数,消去w和b得到原问题的Wolf对偶(Dual)问题:x1=(0,0),y1=+1x2=(1,0),y2=+1x3=
3、(2,0),y3=-1x4=(0,2),y4=-1可调用Matlab中的二次规划程序,求得a1,a2,a3,a4的值,进而求得w和b的值。而分划超平面仅仅依赖于为零的训练点,而与对应于为零的那些训练点无关。很多情况下,训练数据集是线性不可分的,Vapnik等人提出了用广义分类面(松弛子)来解决这一问题。非线性问题——通过非线性变换将它转化为某个高维空间中的线性问题,在这个高维空间中寻找最优分类面。近似线性可分:当最优分类面不能把两类点完全分开时(线性不可分),如果希望在经验风险和推广性能之间求得某种均衡,则可以通过引入超松弛因子ξ,允许错分样本的存在,此时的分类面满足:两个目标:1.间隔
4、尽可能大2.错划程度尽可能小当时,样本点正确分类;当时,样本点被错分。因此,引入一个惩罚参数,新的目标函数变为:体现了经验风险,而则体现了表达能力。所以惩罚参数实质上是对经验风险和表达能力匹配一个裁决。当时,近似线性可分SVC的原始问题退化为线性可分SVC的原始问题。1、用间隔定量地定义了置信风险:间隔越大,置信风险越小,间隔越小,置信风险越大2、用参数C实现了经验风险与置信风险的折中3、最优分类超平面只由少数支持向量决定,问题具有稀疏性4、模型为凸二次规划模型,没有陷入局部最优解的问题,任何局部最优解都是全局最优解5、通过使用核方法,具备了强大的非线性处理能力注:问题具有稀疏性是指决策
5、时可以不管非支持向量的样本,而仅用到少数支持向量样本。注意训练时还是用到了所有的样本。核函数SVM中不同的内积核函数将形成不同的算法,主要的核函数有三类:多项式核函数得到q阶多项式分类器。径向基函数S形函数对非线性分类问题,若在原始空间中的简单最优分类面不能得到满意的分类结果,则可以通过非线性变换转化为某个高维空间的线性问题,在变换空间求最优分类面,SVM通过核函数变换,巧妙地解决了这个问题。如何针对不同的问题选择不同的核函数仍然是一个悬而未决的问题。由于寻找最优分类面函数只涉及到训练样本之间的点积运算,所以将样本映射到高维空间H时,算法仅使用H空间中的点积,而没有单独出现。能够找到一个
6、函数K使得,这种点积运算是可以在原空间中的函数实现的,甚至没有必要知道变换的形式。根据泛函的有关理论,只要一种核函数满足Mercer条件,它就对应某一种变换空间中的点积。引入内积函数之后,目标函数式变为:相应的分类函数式变为:Mercer条件对于任意的对称函数,它是某个特征空间中的内积运算的充要条件是,对于任意的。在最优分类面中采用适当的内积函数就可以实现某一非线性变换后的线性分类,而计算复杂度却没有增加。其中,是模型的解。这就是支持向量机。概况地说,支持向量机就是首先通过用内积函数定义的非线性变换将输入空间变换到一个高维空间,在这个空间中求最优分类面。支持向量机(supportvect
7、ormachines)是由贝尔实验室研究者Vapnik于20世纪90年代最先提出的一种新的机器学习理论,是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力。统计方法是从事物外在的表现去推断该事物可能的规律性。统计学习理论是针对小样本情况下的机器学习理论,它依据算法的经验风险以及算法本身的构造来推测它的实际风险,并获得较好的泛化能力。统计学习理