支持向量机在风险评估的运用实例--byseven

支持向量机在风险评估的运用实例--byseven

ID:33826559

大小:174.27 KB

页数:8页

时间:2019-03-01

支持向量机在风险评估的运用实例--byseven_第1页
支持向量机在风险评估的运用实例--byseven_第2页
支持向量机在风险评估的运用实例--byseven_第3页
支持向量机在风险评估的运用实例--byseven_第4页
支持向量机在风险评估的运用实例--byseven_第5页
资源描述:

《支持向量机在风险评估的运用实例--byseven》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、支持向量机方法在风险评估的运用OK—、支持向量机介绍支持向量机(supportvectormachines)是由贝尔实验室研究者Vapnik于20世纪90年代最先提出的一种新的机器学习理论,是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力。支持向量机从诞生至今才10多年,发展史虽短,但其理论研究和算法实现方面却都取得了突破性进展,有力地推动机器学习理论和技术的发展。这一切与支持向量机具有较完备的统计学习理论基础的发展背景密不可分。统计学习理论领域里把学习问题

2、看作是利用有限数量的观测来寻找待求的依赖关系的问题。而基于数据的机器学习问题,则是根据已知样本估计数据之间的依赖关系,从而对未知或无法测量的数据进行预测和判断。支持向量机方法是统计学习理论中最年轻的部分,日前仍处于不断发展阶段。支持向量机是从线性可分情况下的最优分类而发展而来的。其慕本思想可用图3-3的两维情况说明。图3・3:支持向量机的分类面图3-3中,实心点和空心点代表两类样本,H为分类线,Hl、H2分别为过两类中离分类线最近的样木且平行于分类线的直线,它们之间的距离叫做分类间隔。所谓最优分类线就是要求分类线不但能将两类样木正确分开(训练错误率为

3、0),而且使分类间隔最大,右图的H即为最优分类线。分类线方程可以表示为x•w+b=0,对它进行归一化,使得对线性可分的样本集(Xi,yO,i=l,•••,n,xG出,yie{+l,-l},满足约束条件式(1)。此时分类间隔等于2/

4、

5、w

6、

7、,使间隔最大等价于使IIwII72最小。满足条件公式(1)且使IIw

8、

9、72最小的分类面就叫做最优分类面,Hl、H2上的训练样木点称作支持向量。因此,求最优分类面的问题转化为在不等式仃)的约束下式(2)的优化问题。利用Lagrange优化方法可以把上述求最优分类面问题化为其对偶问题,即求式(3)的最大值,约束条件为

10、式(4),其中J为Lagrange乘子。这是一个不等式约束下二次函数寻优的问题,存在唯一解。解上述问题后得到的最优分类函数式(5)。式(5)中的求和实际上只对支持向量进行。a「为ai的最优解,b*是分类阈值,可以用任一个支持向量(满足公式(1)的等号)求得,或通过两类中任意一对支持向量取中值求得。上面的最优分类面是在线性可分的前提下讨论的,在线性不可分的情况下,考虑到可能存在一些样本不能被超平面正确分类,因此引入松弛变量J20,这样公式(1)的线性约束条件变为式(6)。此时优化问题变为(7);约束条件为(8)。式(7)中的常数C起着对错分样本的惩罚作

11、用,实现的是学习机器泛化能力和错分样本数冃之间的折中。以上都是在线性分界超平而的基础上进行的讨论,在很多问题中需要将其推广到非线性分类超平而中。SVM的非线性特性可以如下方式来解决,把输入样本X映射到高维特征空间(可能是无穷维)H中,并在H中使用线性分类器来完成分类,即将X做变换①:R(d)-H,则前而的分析同样适用。当在特征空间H中构造最优超平面时,训练算法使用空间中的点积,即仅仅使用①(xj•①(Xj),而没有使用单独的①(xj。因此,如果能够找到一个函数K使得k(Xi,xj)=0(xi)•①(x>那么,在高维空间实际上只需进行内积运算,而这种内

12、积运算是可以用原空间中的函数来实现的,甚至没有必要知道①的形式。根据泛函的有关理论,只要一种核函数k(Xi,Xj)满足Mercer条件,它就对应某一变换空间中的内积。选择不同的内积函数K,就形成不同类型的算法,常用的内核函数有:多项式(Polynomia1)内核函数、Guass内核函数、Sigmoid内核函数等。”■・[Gg♦x£[―1NO9i—1(I>■-rxi■-><■><>=—IIII—C>IV(«>=7-・NO<<>><^7><«>InC.i=1»-*•vIC>—-i—

13、部分的数据来源于教育部直属76所高校的2009年财务年报数据。自变量为财务综合风险评估的15个因子,也是支持向量机的输入变量,因变量为高校财务综合风险。利用因子分析的总分和排名,将财务综合风险离散化。由于财务风险通常采用五级评价(很小、较小、一般、较大、很大),因此,将76所高校的F得分离散化,转化为1,2,3,4,5,分别表示财务风险很大、较大、-•般、较小和很小:F值小于-0.5表示财务风险很大,用1表示;F值介于0--0.5之间表示财务风险较大,用2表示;F值介于0-0.2之间表示财务风险一般,用3表示;F值介于0.2-1之间表示财务风险较小,

14、用4表示;F值大于1表示财务风险很小,用5表示。转换后发现,财务风险很大的高校11所,财务风险较大的高校31

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。