欢迎来到天天文库
浏览记录
ID:53910823
大小:1.37 MB
页数:15页
时间:2020-04-27
《SPSS Modeler 支持向量机模型评估银行客户信用.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、Modeler支持向量机模型评估银行客户信用本文要介绍的预测分析模型是“支持向量机模型”,我们将为大家简要介绍支持向量机模型的理论,然后结合IBMSPSSModeler产品详细讲述如何利用支持向量机模型来解决客户的具体商业问题—银行如何评估客户信用银行典型案例商业银行个人信用评估就是根据个人信息和借贷记录等历史数据,判断个人信用,它是保证信贷安全的重要一环。但是商业银行用于信用评估的数据往往具有特性不稳定,历史样本容量较小,指标较多,呈明显的非正态分布。这些特点导致很难利用一般的统计技术进行有效的评估。支持向量机模型(简称SVM)能够很好的处理此类数据,进行有效的信用评
2、估。本文介绍了SVM的基本概念以及Modeler中使用SVM进行信用评估的基本步骤和方法,并对结果进行分析和应用支持向量机模型简介支持向量机(SupportVectorMachine,简称SVM)是一项功能强大的分类和回归技术,可最大化模型的预测准确度。与其他常用模型不同,SVM一个优势就是能很好的处理小样本,高维数,非正态的数据。SVM的工作原理是将原始数据通过变换映射到高维特征空间,这样即使数据不是线性可分,也可以对该数据点进行分类。之后,使用变换后的新数据的进行预测分类。例如,图1中的数据点落到了两个不同的类别中,可以用一条曲线分隔这两个类别。对数据使用某种数学函
3、数变换后,可以用超平面定义这两个类别之间的边界。图1.数据变换后线性可分示意图用于变换的数学函数称为核函数。IBMSPSSModeler中的SVM支持下列核函数类型:线性多项式径向基函数(RBF)Sigmoid如果数据的线性分隔比较简单,则建议使用线性核函数。在其他情况下,应当使用其他核函数。在所有情况下,最好尝试使用不同的核函数,才能从中找出最佳模型,因为每一个函数均使用不同的算法和参数。回页首使用IBMSPSSModeler支持向量机模型评估客户信用IBMSPSSModeler中的SVM提供了可视化的操作方法,具有界面友好,操作方便的特点。此节,介绍如何使用
4、IBMSPSSModelerSVM评估客户信用。操作步骤分为:创建基本流(ModelerStream),建立模型;测试模型,分析结果;用不同的核函数建模,比较并选择合适的模型;运用选定的模型来评估客户信用。我们使用UCIMachineLearningRepository上公开的商业银行客户信用记录作为数据集进行演示。该数据集由1000条个人信用记录组成,每条记录均包含一组个人信息值,其中包括对客户信用的评估结果。1000条记录保存在CreditData.csv文件中,从1000条记录中抽出一部分用于演示用选定的模型评估客户信用,将这部分数据保存到CreditDa
5、ta4Estimate.csv文件中。创建基本流(ModelerStream),建立模型图2.基本流建模图基本流如图2所示,创建步骤如下1)添加源数据—选择合适的数据创建新流,命名为SVM.str。从“源”选项卡中添加一个“可变文件”节点到SVM.str,从“输出”选项卡中添加一个“表”节点到流,并将“表”节点连接到“可变文件”节点。打开“可变文件”节点,导入客户信用数据CreditData.csv。运行“表”节点,显示源文件中数据,如图3所示。数据有22个字段,1000条记录。ID字段为客户标志符。每个客户的信息包含在从StatusChkAccount到Foreign
6、er的字段中。Class字段表示信用评级,取值为良(值=1)或者差(值=2)。图3.源数据图2)设置类型—选择用作预测的变量和目标变量从“字段选项”选项卡中添加一个“类型”节点到SVM.str,并将它连接到“可变文件”节点之后,打开“类型”节点,并单击[读取值]按钮。获得数据集描述,如图4所示。图4.源数据类型描述图本模型,希望预测Class的值(此字段只有2个值,即良(=1)还是差(=2))。在“类型”设置界面中,单击Class字段的“测量”列,将其改为“标志”,将Class的角色设置为“目标”;ID字段作为个人标识符,不会对建模和预测产生影响,不会用作预测变量或模型
7、的目标,将其角色设置为“无”;其他字段作为特征字段用作预测变量,因此将其角色设置为“输入”。3)添加分区—选择建模的数据和测试模型的数据为了建立模型(即训练模型),同时测试模型,需要把数据集CreditData.csv分为两部分,一部分用于建立模型,另一部分用于测试新建模型。分区节点通过在源数据表中添加一个字段,根据字段的不同取值,将数据分区。“分区”节点最多可以将数据分为三部分,分别用于训练、测试和验证。从“字段选项”选项卡中添加“分区”节点到流,将其连接到“类型”节点,打开“分区”节点,使用默认设置。默认分为“训练”和“测试”两个分区
此文档下载收益归作者所有