基于随机森林的个人信用评估模型研究及实证分析

基于随机森林的个人信用评估模型研究及实证分析

ID:46295413

大小:654.30 KB

页数:3页

时间:2019-11-22

基于随机森林的个人信用评估模型研究及实证分析_第1页
基于随机森林的个人信用评估模型研究及实证分析_第2页
基于随机森林的个人信用评估模型研究及实证分析_第3页
资源描述:

《基于随机森林的个人信用评估模型研究及实证分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于随机森林的个人信用评估模型研究及实证分析口萧超武1蔡文学-黄晓字1陈康2(1.华南理工大学经济与贸易学院,广东广州510006:2.中国电信股份有限公司广东研究院,广东广州510630)[摘要]信用评估是商业银行控制和防范信贷风险的关键途径,针对当前个人信用评估模型多使用单一分类器,容易导致过拟合且预测精度有限的问题,提出了基于随机森林组合分类算法的个人信用评估模型,并在实证分析中与KNN、RBF—NET、SVM等单分类器模型以及组合模型GBDT比较,发现基于随机森林组合分类器模型,在个人信用评估的应用

2、中,具有更高的预测精度和稳定性。通过对特征变量评价发现,贷款者个人信息中现有账户状态(透支或有余额等情况)、信贷期限、信贷历史记录、贷款金额对信用风险预测准确率有显著的影响。【关键宇】个人信用评估;随机森林;特征变量评价[中圈分类号】F832.332[文献标识码】A[文章编号]1003--1154(2014)06-0111--03我国商业银行个人信贷业务飞速发展,各类信贷产品层出不穷,然而我国个人征信系统尚未完备、信用环境及相应的法律法规不完善,个人信贷业务扩展的同时。也给银行带来了巨大风险。如何在扩大业务

3、规模的同时,有效控制和防范信贷风险。是各大商业银行亟待解决的问题,其中重要的途径是进行个人信用评级。解决个人信用评级问题最常用的手段,是根据过去信贷记录中个人提供的信息。以及是否违约的标记。建立信用评级模型。纵观目前的研究,评估方法多数采用单一分类器。为了克服单个模型的过度拟合问题.Breiman⋯于2001年提出了随机森林(RandomForest,RF)方法。随机森林迅速发展。然而结合随机森林的个人信用评估研究较少。因此,研究如何引入随机森林组合分类器模型,提升对用户信用风险的识别和预测准确率,对提高商

4、业银行的风险管理能力具有重要的参考价值。一、基于随机森林的银行个人信用评估模型(一)随机森林模型随机森林模型的基本思想为:首先,利用boost-strap抽样方法从原始训练集抽取

5、

6、}个样本集。且每个样本的容量均与原始训练集一致;其次,对后个样本分别建立k个决策树模型,其中,每个基本决策树模型均使用随机的m个变量属性。得到组合的分类器。对于每个测试样本,利用k个模型分别进行分类。得到尼种分类结果;最后对

7、

8、}种分类结果分别投票决定其最终分类结果。在应用随机森林时需要考虑两个参数。一是随机特征变量个数m,通常

9、设m一、/M,二是决策树的数量k,通常设为比较大的数值。另外,决策树的分支测度有3种选择:信息熵、Gini系数和“二分法”,由于银行个人信用数据在分类树中为非均匀分布,这里选择杂质函数基尼系数(Gini)作为分枝标准,其定义如下:假设集合孢含Ⅳ个类别的记录,那么其Gini指标为:,,vGini(丁)=j一∑,。,P∽)为类另啦在节点t处的相对频率,当Gini(£)=D时,即在此节点处的所有记录均属于同一类别。如果集合7’在X的条件下分成两部分Ⅳ,和Ⅳ:,那么这个分割的Gini指数就是:NN.Ginina.(

10、71)=Gini(T,)+-寿Gini(Tz)(2)这里采用简单多数投票法决定最终分类结果,最终的分类决策为:0H(x)=argmax乞I(h.(戈)=y)(3)Io,其中,H(z)表示组合分类模型.危,表示单个决策分类模型,y表示目标变量,,(·)为示性函数。(二)算法流程依据随机森林模型的基本原理,下面针对银行个人信用评估问题设计具体的算法流程。用£b{dl,吐,...,d。}表示银行个人信贷数据样本集合,样本容量为Ⅳ,每个样本用d.={x。,Yl}表示,X。=k,,并。⋯,戈。。}表示是样本i的特征向

11、量,肘表示样本的特征维数,戈i,表示样【基金项目】国家高技术研究发展计划(863计划)(2012AAl23.203).2014年第6期皿本i第一维的特征值,Y。表示分类属性,在这里Y。∈(0,1),分别表示“良好”与“不良”客户。算法分为两模块,第』模块为整体的随机森林算法,具体见表l,输出为最终的组合分类器;第二模块为针对每个不剪枝的决策树的学习算法,具体见表2,输出为单个决策树模型。表1随机森林算法AlgorithmrandomForestForCreditInput:数据集D,决策树数k,随机变量个数

12、mOutput:最终分类器H1.define打;//定义日用于存储k个决策树的模型参数2.forj=1:k3.D.=boostrap(D);//重抽样方法从样本集D巾抽选Ⅳ个样本4.置=getFeture(Dj.y);//特征矩阵5.¨=getLabel(已,M+1);//分类标签6.Ⅳ(j)=learnUnprunedTree(Xj,y『,m);//生成没有剪枝的决策树7.end8.returnJ=『;表2不剪

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。