基于稀疏贝叶斯学习个人信用评估

基于稀疏贝叶斯学习个人信用评估

ID:6074961

大小:29.00 KB

页数:6页

时间:2018-01-02

基于稀疏贝叶斯学习个人信用评估_第1页
基于稀疏贝叶斯学习个人信用评估_第2页
基于稀疏贝叶斯学习个人信用评估_第3页
基于稀疏贝叶斯学习个人信用评估_第4页
基于稀疏贝叶斯学习个人信用评估_第5页
资源描述:

《基于稀疏贝叶斯学习个人信用评估》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于稀疏贝叶斯学习个人信用评估  摘要:针对传统信用评估方法分类精度低、特征可解释性差等问题,提出了一种使用稀疏贝叶斯学习方法来进行个人信用评估的模型(SBLCredit)。SBLCredit充分利用稀疏贝叶斯学习的优势,在添加的特征权重的先验知识的情况下进行求解,使得特征权重尽量稀疏,以此实现个人信用评估和特征选择。在德国和澳大利亚真实信用数据集上,SBLCredit方法的分类精度比传统的K近邻、朴素贝叶斯、决策树和支持向量机平均提高了4.52%,6.40%,6.26%和2.27%。实验结果表明,SBLCredit分类精度高,

2、选择的特征少,是一种有效的个人信用评估方法。关键词:稀疏贝叶斯学习;分类;信用评估;金融风险;特征选择0引言6信用评估是商业银行控制风险的关键技术,发生在美国的“次贷危机”就是信用风险的大爆发,因此信用评估方法的研究具有非常重要的现实意义。信用评估实质上是数据挖掘中的分类问题——将贷款者根据其属性分成能够按期还本付息的可信的“好”客户(正类)和违约的“坏”客户(负类)两类,进而预测未来贷款人的违约风险,为消费信贷决策提供科学依据。由于信用评估的重要性,它已成为近年来的研究热点,信用评估的方法主要有决策树[1]、朴素贝叶斯(Nav

3、eBayes)[2]、K近邻(KNearestNeighbour,KNN)[3]、支持向量机(SupportVectorMachine,SVM)[4-6]、自然计算[7-8]及这些方法的集成[9-11]等。但已有方法大多存在分类精度低,不能有效进行特征选择以致模型可解释性差[8]等问题。本文将最近几年在信号处理、模式识别中的研究热点——“稀疏学习”引入到信用评估中,提出了一种基于稀疏贝叶斯学习(SparseBayesianLearning,SBL)的个人信用评估模型(SparseBayesianLearningbasedCred

4、it,SBLCredit)。SBLCredit模型首先添加各属性的权重先验知识,然后在该先验知识约束下求解属性权重,以此建立信用评估模型;对于一个待分类样本,先计算各权重与属性值乘积的累加和,然后将得到的值映射到正、负类。据作者所知,这是首次将稀疏学习方法应用到信用评估上。在取自德国和澳大利亚的真实信用数据集上做了实验,结果表明,相对于传统的KNN、NaveBayes、决策树和SVM分类方法,SBLCredit算法具有更高的分类精度且选出的特征更稀疏。1稀疏贝叶斯学习框架6稀疏学习是近年的研究热点,在信号处理、模式识别和机器学习

5、等领域得到了广泛研究,而稀疏贝叶斯学习框架是一种典型的稀疏学习方法,相对于传统的基于L1惩罚项稀疏学习方法(比如Lasso、BasisPursuit),SBL具有明显的优势[12-13]:1)在无噪声情况下,除非满足特定的条件,L1算法的最优解并不是真正的最稀疏解。因此,当真实解是最稀疏解的应用场合,SBL是最佳选择。2)当感知矩阵的列与列之间相关性很强时,L1算法的性能非常差。但在这种情况下,SBL仍然能获得良好的解。3)已经有研究表明,SBL等价于一种迭代加权L1最小化算法,L1算法仅仅是其第一步,因此,SBL完全可以获得比

6、L1更优的稀疏解。稀疏学习/压缩感知的一般模型可描述为:其中:D为N×M的感知矩阵,y为N×1维压缩信号,x为M维待求解向量,v是噪声。为了得到稀疏的x,SBL假设x中的每个元素都服从一个参数化的均值为0,方差为γi的高斯分布:p(xi;γi)=N(0,γi);i=1,2,…,M(2)其中:xi是x中的第i个元素,γi是未知参数,其值将由算法自动估计出来。在算法的运行过程中,部分γi变成0或趋于0,SBL通常将小于某个阈值的γi置为0,此时对应的xi也为0,以此达到稀疏的效果。在有噪声的情况下,通常假设v为方差为λ的高斯白噪声向

7、量,即:p(v;λ)=N(0,λI)(36根据贝叶斯规则很容易获得噪声的后验分布,也为一高斯分布。当所有的未知参数γi和λ都被估计出来后,x的最大后验估计由这个高斯分布的均值给出,而这些未知参数由第二类最大似然估计[12]获得。2基于稀疏贝叶斯学习的个人信用评估SBL本身的模型就是一个稀疏线性回归模型,在求得式(1)中的解向量(回归系数)x后,对于一个测试样本T,可以计算其观测值(自变量或属性值)A=[a1,a2,…,aM]与压缩信号(因变量)r之间关系的表达式,如式(4):r=Ax=∑Mi=1aixi(4)其中:ai是测试样本

8、的第i个属性值;r是一个实数,为了将SBL用于分类问题,必须将其映射为类标签,在本文,分别采用1,-1表示正、负类标签,将正数和0的r映射为1,负数映射为-1,即:3实验结果及分析3.1实验环境本文采用加州大学欧文分校(UCI)提供的机器学习公开数据集中[15]

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。