资源描述:
《支持向量机SVM.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、支持向量机SVM主要内容1.SVM简介2.SVM相关概念解释3.SVM原理3.1线性可分3.2线性不可分支持向量机简介支持向量机(SupportVectorMachine)是Vapnik等人在1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势。支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力。SVM相关概念解释VC维:对于一个指示函数(即只有0和1两种取值
2、的函数)集,如果存在h个样本能够被函数集里的函数按照所有可能的2h种形式分开,则称函数集能够把h个样本打散,函数集的VC维就是能够打散的最大样本数目。圈代表0;点代表1;SVM相关概念解释经验风险:使用分类器在样本数据上的分类的结果与真实结果(因为样本是已经标注过的数据,是准确的数据)之间的差值。根据统计学习理论,学习机器的实际风险由经验风险值和置信范围值两部分组成。而基于经验风险最小化准则的学习方法只强调了训练样本的经验风险最小误差,没有最小化置信范围值,因此其推广能力较差。缺点:1.经验风险主要反映的是样本数据与真实结果的差距,而样本数据在实际项目
3、中只是总体的一小部分;2.过度地强调经验风险最小化容易造成过学习问题。SVM相关概念解释过学习问题推广能力:将学习机器(即预测函数,或称学习函数、学习模型)对未来输出进行正确预测的能力。underfittingGoodfitoverfitting选择了一个足够复杂的分类函数,能够精确的记住每一个样本,但对样本之外的数据可能一律分类错误。SVM相关概念解释结构风险最小化即SRM准则:统计学习理论提出了一种新的策略,即把函数集构造为一个函数子集序列,使各个子集按照VC维的大小排列;在每个子集中寻找最小经验风险,在子集间折衷考虑经验风险和置信范围,取得实际风
4、险的最小。一是经验风险,代表了分类器在给定样本上的误差;二是置信风险,代表了我们在多大程度上可以信任分类器在未知样本上分类的结果。置信风险与两个量有关,一是样本数量,显然给定的样本数量越大,我们的学习结果越有可能正确,此时置信风险越小;二是分类函数的VC维(分类函数的复杂度),显然VC维越大,推广能力越差,置信风险会变大.SVM相关概念解释SVM原理—数据线性可分2个类的问题设两类问题训练样本集为(X1,y1),(X2,y2),…,(Xn,yn),其中Xi∈Rn,yi={1,-1},i=1,…,n,这里线性可分就是指,存在着超平面(Hyper-plan
5、e)直线f(x)=wX+b,使得训练样本中的一类输入和另一类输入分别位于该超平面的两侧.这种线性分类函数在一维空间里就是一个点,在二维空间里就是一条直线,三维空间里就是一个平面,可以如此想象下去,如果不关注空间的维数,这种线性函数还有一个统一的名称——超平面(HyperPlane)!最优超平面就是分割的间隙越大越好,把两个类别的点分得越开越好。具有最大边缘超平面如何求最优超平面分离超平面可以记作:WX+b=0其中,W是权重向量,即W={w1,w2,...,wn},n是属性数,b是标量,通常称做偏倚。训练组是二维的,如X=(x1,x2),其中x1,x2分
6、别是X的属性A、B的值。我们将b看作附加的权重w0,则将分离超平面改写成b+w1x1+w2x2=0这样,位于分离超平面下方的点满足b+w1x1+w2x2<0位于分离超平面上方的点满足b+w1x1+w2x2>0调整权重使得定义边缘侧面的超平面记为H1:b+w1x1+w2x2≥1,对于所有yi=+1H2:b+w1x1+w2x2≤-1,对于所有yi=-1两个边界平面的距离:m=2/
7、
8、w
9、
10、如何求最优超平面求解最优超平面问题可以表示成约束优化问题MinimizeSubjectto定义Lagrange函数现在,原问题转化为下面这样一个优化问题求解w和b,使得对
11、于所有的样本{(xi,yi)},能有m=2/
12、
13、w
14、
15、最大,其中满足当yi=1时,wTxi+b≥1,当yi=-1时,wTxi+b≤-1,所以有:yi(wTxi+b)≥1如何求最优超平面分别对w和b求偏导,并令其为0,可得这实际上是寻找极值条件下L函数满足的等式约束将得到的约束条件带入原L函数,得到:该式称为L函数的对偶式,由对偶理论可知,最小化L式等于最大化以L式的约束的拉格朗日乘子为变量的上式x1=(0,0),y1=+1x2=(1,0),y2=+1x3=(2,0),y3=-1x4=(0,2),y4=-1调用Matlab中的二次规划程序,求得1,2
16、,3,4的值,进而求得w和b的值。SVM原理—数据非线性可分对于无法直接构造分类超平面的样