欢迎来到天天文库
浏览记录
ID:308078
大小:305.00 KB
页数:11页
时间:2017-07-21
《基于最小二乘支持向量机集成模型的信用评价》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于最小二乘支持向量机集成模型的信用评价关键词:信誉、得分支持矢量机器、总体模型摘要:由于最近的金融危机以及巴塞尔新资本协议的监管问题,信贷风险评估已经成为金融风险管理领域最重要的课题之一。在各种金融机构中,大量的定量信用评分模型被引用来评估顾客的信誉风险。尽管实验已经证明单个支持向量机(SVM)具有很好的性能,但是一个带有固定的实验样本数据和参数设置的单一分类器可能会有某种形式的归纳偏差。而减少这种偏差的一种有效的方法就是集成模型。在本文的研究中,将为读者介绍一种基于合奏模式的最小二乘支持向量机(LSSVM)的总体模型,这种模型最终也将服务于信誉得分领域,提出信用评分。这种模
2、型通过测试两个真实数据库,结果表明集成模型策略能够在一定程度上提高分类性能,并有效地帮助构建信誉评分模型。1.介绍信贷风险评估已经逐渐成为金融机构的重要领域,在近期的金融危机中,由于顾客拖欠贷款的事例逐渐增多,许多金融机构遭受巨大损失。在美国,1997年官方信誉发行人减少发行27.19亿债券来弥补损失,而这个数字到2006年已经达到31.91亿(HSN咨询股份有限公司,2007年)。此外,由于顾客拖欠贷款,近期的次贷危机也使美国的一些公司损失数亿美元。然而,在这个持续膨胀的信誉市场上,金融机构又不能通过拒绝所有的顾客来避免信贷危机。因此,在信贷市场,重建有效的信贷风险评估体系已
3、经成为金融机构获得竞争优势的决定性因素,这能够帮助他们接受信用良好的顾客,拒绝非信用良好的顾客,从而减少损失。很明显,机构需要作出明确的决策支持来决定是否接受顾客的信誉服务,随着数字精确度的发展,甚至是一个百分数的小数部分都能转换成重要的数据,而这足以拯救整个储蓄信贷行业(Thomas,Edelman,和Crook,2002年)。运用信用评分是帮助贷款方决定是否接受顾客的最为广泛的技术,信用评分的主要思想是根据申请者在申请表或者信贷机构记录上的特征的来计算申请人的违约概率的,这些记录特征是通过以过去的申请者信息建立的一定量模型得到的。来自于不同学科的定量分析方法都已经用于建立信
4、用评分模型,例如线性判别分析、线性回归、决策树、数据的网络分析、来自于人工智能的矢量支持机器,还有一些其他的混合方法。支持向量机方法最早由Vapnic提出,并已经成功应用于一系列的现实问题,比如说笔迹的手写数字辨别、文本分类、说话人身份鉴定等等。在大部分的这些应用中,SVM的泛华性能和匹配程度优于其他竞争的方法。为了解决信誉评分的问题,Baesens研究了各种不同国家的艺术分类算法的规律,这些都是关于现实生活中八种信誉得分数据设置的。在被测试的17种方法中,由于精确的分类(由PCC即百分比精确分类机构测定),平均排名最高的的SVM(Thomas,Liver和Hand,2005)
5、。为了提高PCC的性能,黄、陈和王(2007年)在信用评分模型的基础上建立了混合的信誉得分模型,还针对数据输入的选择和模型参数提出了一些探索性的方法。实验数据结果表明带有相对较少数据输入的SVM分类器仍然能够获得和神经网络、遗传编程、决策树分类器等良好分类器一样的精确分类。尽管单一的SVM模型在数据分类上又不错的表现,但是它们对样本数据和参数的设置太敏感。一般来说,一个带有一组确定的实验样本数据和特定的参数设置的单一的SVM数据分类器,可能会有一系列感性偏差。减少这种偏差的一种有效方法就是总体模型。总体模型能够有效利用各种数据的多样性,这种方法可以降低方差错误,而且人们相信它也
6、能实现数据分类的功能,并且要比单一的数据分类器好(Breiman,1996,1999)。总体方法的中心思想是建立一组模型,其中每一个都是用来解决相同的初始问题,目的是为了获得一个更好的总体模型,这种模型会拥有更精确可信度更高的评估或者决定,这些都是单一的数据分析模型不可比拟的,因为从中无法获得那样的数据,从而也表明了复合方法的工作机制。(Maim和Rokach,2005),图1示出了该机制的集成方法。图1总体模型框架图这篇论文推荐了一些新的SVM总体模型,这些模型通过不同的方法可以复合最简单的直线SVM分类器,而直线SVM分类器之前是分类个人数字的。这些总体模型可以分成两组。一
7、组是根据每个数据分类器可靠度来分类的,另一组是根据不同的权重分类的。基于可靠性为依据的总体模型策略与总体模型中通常所用的“一数一票”方法不同。这种调整来自于直觉,专家认为“一数一票”的复合策略并没有充分利用每一个分类器的数据信息。举个例子来说,一种总体模型有三个SVM数字分类器,Ha,Hb,Hc,。图2总体模型决策示例如图2所示,它们在数据分类上都具有活性,这些都在第二个例子中举出。在点A,由于一个未被发现的特征向量,两个复合数字(Ha,Hb)对确定这个点没有任何作用,但却对数据的分类有轻微
此文档下载收益归作者所有