欢迎来到天天文库
浏览记录
ID:10769539
大小:57.50 KB
页数:5页
时间:2018-07-08
《基于决策树的上市公司信用风险模型实证研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于决策树的上市公司信用风险模型实证研究随着我国证券市场机制和企业破产制度的完善,信用风险问题日益突出,不但使企业遭受巨大损失,而且直接影响企业的生存和发展;此外,大量上市公司存在信用风险时,将有可能引发金融危机。因此,对上市公司信用风险的管理是非常必要和迫在眉睫的。而上市公司信用风险评估模型的建立是防范信用风险的重要手段,因此,研究上市公司信用风险评估这一课题,已经成为我国目前经济生活中亟待解决的一个重要问题。 目前许多定量技术和支持工具、软件已付诸商业应用,继传统的比例分析之后,统计方法得到
2、了广泛的应用,如判别分析和Logistic回归等。信用等级评估是通过对企业或个人的某些单一财务指标进行加权平均确定的。该方法的最大缺陷在于指标和加权值的确定带有很大的主观性,使得评估结果和实际状况有很大的出入。因此需要引入科学方法来确定有效评估指标,并建立准确的定量模型来解决信用等级评估的问题。近年来,信息技术得到了迅速发展,如数据挖掘技术等能从海量数据中智能发现有用的规则和知识,再加上我国上市公司信息披露制度的不断完善,使得我们的研究能够得到的数据资料也不断的增多,这些有利条件的出现使得我们对基
3、于数据挖掘的上市公司信用风险评估模型的研究具有了数据基础和技术基础。 一、模型简介 (一)决策树算法决策树是对已知类别的数据样本进行归纳学习获得的树形结构,树内每个非叶节点代表对一个属性取值的测试,每个叶节点代表一个类别。决策树方法利用信息理论的信息增益选择具有最大信息量的属性来建立决策树的一个节点,再根据属性字段的不同取值来建立树的分枝,如此对每个分枝重复递归建立整个决策树。产生决策树的基本算法如下: 输入:训练样本,各属性均取离散数值,可供归纳的备选属性集合为attribute_list
4、。 输出:决策树 算法:Gen_decision_tree 创建一个节点Node; IF该节点中的所有样本均为同一类别cTHEN返回Node作为一个叶节点并标志为类别c; IFattribute_list为空THEN返回Node作为一个叶节点并标记为该节点所含样本中类别个数最多的类别; 从attribute_list选择一个信息增益最大的属性test_attribute; 将节点Node标记为test_attribute; 根据test_attribute=Vi条件,从节点Node
5、产生相应的一个分枝,且设Si为根据该分枝条件所获得的样本集合; IFSi为空THEN将相应叶节点标志为该节点所含样本中类别个数最多的类别,ELSE,将相应叶节点标志为由Gen_decision_tree(Si,attribute_list,test_attribute)返回的值。 其中,信息增益的计算方法为:设S为一个包含S个数据样本的集合,类别属性可以取N个不同的值,对应于N个不同的类别Cj,j∈{1,2,3,…,N},Sj为类别Cj中的样本个数。那么对一个给定数据对象进行分类所需的信息量为
6、: Infor(S1,S2,…SN)=-■pjlog2(pj)(1) 其中,pj是任意一个数据对象属于类别Cj的概率,即pj=Sj/S。设属性V取v个不同的值{V1,V2…,Vv},则利用属性V可以将集合S划分为v个子集{S1,S2…,Sv},其中Si包含了集合S中属性V取Vi值的那些样本。设Sij为子集Si中属于Cj类别的样本个数。那么利用属性V划分当前样本集合所需要的信息熵可以计算如下 Entr(V)=■■Infor(S1,S2,…SN)(2) Infor(Si1,Si2,…SiN)=
7、-■pijlog2(pij)(3) pij=■(4) 这样利用属性V对样本集合进行划分所获得的信息增益为: Cain(V)=Infor(S1,S2,…SN)-Entr(V)(5) (二)K最近邻法K最近邻法简称KNN算法,在理论上是比较成熟的方法,最初于1968年由Cover和Hart提出,其思路非常简单直观。KNN方法是一种有监督学习的分类算法,它并不需要产生额外的数据来描述规则,它的规则就是数据(样本)本身,并不要求数据的一致性问题,也就是说K最近邻法在一定程度上减小了噪声样本对分类的
8、干扰。KNN根据未知样本的K个最近邻样本来预测未知样本的类别,K个最近邻样本的选择是根据一定的距离公式判定的。 KNN分类算法的基本原理为:首先将待分类样本y表达成和训练样本库的样本一致的特征向量;然后根据距离函数计算待分类样本y和每个训练样本的距离,选择与待分类样本距离最小的K个样本作为y的K个最近邻;最后根据y的K个最近邻判断y的类别。KNN算法必须明确两个基本的因素:最近邻样本的数目K和距离的尺度。K表示选择参考样本的数目,距离尺度对应一个非负的函数,用来刻画不同数据间的相
此文档下载收益归作者所有