资源描述:
《处理非线性分类和回归的新方法—支持向量机方法(SVM).ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、处理非线性分类和回归的新方法—支持向量机方法(SVM)(SupportVectorMachine)支持向量机方法(SVM)简介(SupportVectorMachine)利用有限数量的观测来寻求待求的依赖关系机器学习问题的提法模式识别(分类)回归分析(回归)概率密度估计训练样本集:(x1,y1),(x2,y2),……,(xl,yl)其中xi为N维向量,yi{-1,1}或{1,2,……,k}(聚类)yiR(回归)预报样本集xl+1,xl+2,……,xm;求yiG:产生器,随机产生向量x∈Rn,F(x)未知
2、S:训练器,对每一x∈Rn返回一输出值yLM:学习机器,可供选取的函数集f(x,)基于训练,从给定的函数集f(x,),∈中选出最好逼近训练器响应的函数来GxSyLMy模式识别问题的图示样本数据集:X训练学习集测试集检验集分类关系建立优化应用y=f(X,α)SVM的基本思路通常习惯于把样本降维(向低维空间做投影)化简问题通常采用线性化手段。(如取对数)SVM方法是把样本点“升维”,即映射到高维甚至无穷维空间,再在高维空间中采用处理线性问题的方法。映射是非线性的,从而解决样本空间中的高度非线性问题。升维
3、的图示非线性映射的图示特征空间样本空间非线性映射线性分类机二类划分:1.线性可划分2.线性不可分多类划分非线性分类机支持向量机模式识别SupportVectorMachinesforPatternRecognition划分超平面区域假定训练数据可以被一个超平面分开。如果这个向量集合被超平面没有错误地分开,并且距离超平面最近的向量与超平面之间的距离是最大的,则我们说这个向量集合被这个最优超平面(或最大间隔超平面)分开(如图1)。位于和上的向量就称为支持向量。SVM的本质优点传统的统计方法只有在样本数趋向无
4、穷大时其性能才有理论上的保证。对于应用中的有限样本难以取得理想的效果。SVM方法是一种小样本学习方法。SVM可以给出学习结果的推广能力的界。SVM是一种处理非线性分类和非线性回归的有效方法。SVM方法的计算量与样本向量的维数几乎无关,这在某种意义上避免了“维数灾”。SVM常用核多项式核(维数等于)K(x,y)=(a(x·y)+b)dRBF核K(x,y)=exp(-
5、
6、x-y
7、
8、2)双曲正切核K(x,y)=tanh(a(x·y)+b)不同核函数建立的SVM模型对结果的影响及特征比较同一核函数下不同参数建立的
9、SVM模型的特征变化SVM应用于降水分类预报的试验四川盆地面雨量的SVM建模与预报检验预报对象:由于单站降水的不确定性较大,因此,采用面雨量做为预报对象。考虑四川盆地降雨的气候特点,将四川省内盆地部分划分为三个片区:盆地西北部(1)、盆地东北部(2)、盆地西南部(3),分别作为预报对象进行试验预报因子:影响降水量的因子主要是大气环流和外界强迫,考虑资料长度和目前台站使用资料的状况,我们选用ECMWF500hPa高度、850hPa温度、地面气压的0小时输出产品资料来构造预报因子。针对四川盆地的降水影响系统和
10、要素特征,我们在不同的层次选取不同的区域来构造因子,尽量以数字化形式来描述系统及要素的演变资料长度:1990—2000年4—9月共11年的历史资料建模方式:确定核函数归一化因子将预报对象进行分类将预报因子和预报对象进行整理,分为三部分:训练集、测试集、检验集选取参数建立SVM模型确定核函数我们以径向基函数(满足Mercer定理)做为SVM中内积的回旋函数建立推理模型。径向基函数采用下面的决策规则集合:(3)其中依赖于两个向量之间的距离。对任意固定的r,函数是一个非负的单调函数,当趋于无穷大时,其值趋于零。
11、这种类型的函数中最常用的是。要构造(3)式的决策规则,就需要估计:参数r的值;中心的数目N;描述各中心的向量;参数的值。这四种类型的参数都是通过控制泛函的参数来最小化测试错误概率的界确定。将预报对象进行分类我们关注的是大于15mm降水的面雨量,因此把面雨量大于或等于15mm的归为+1类,小于15mm的归为-1类。整理预报因子和预报对象把资料分为三部分:训练集、测试集、检验集。因在建立SVM模型中要对参数进行选取,用不同的参数训练得到的SVM模型中的支持向量不可能完全一样,因推理模型变化,相应的推理结果也会发
12、生改变,什么样的参数建立的推理模型效果最好,就要对其在测试集中进行测试,我们在这里是依据推理模型对测试集的推理结果所得的Ts评分值进行参数确定的,把Ts评分最好的参数对应的支持向量构造的推理模型作为最终确定的推理模型,把该模型用于检验集,以检验其预报效果(推广能力)。选取不同的参数的模型变化状况试验效果分析我们在1990—1998年4—9月的资料中任意剪取了近100个样本做为检验集,把其中剩余的近1400个样本做