欢迎来到天天文库
浏览记录
ID:41663053
大小:82.72 KB
页数:6页
时间:2019-08-29
《决策树算法及应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、决策树算法及应用一决策树算法简介⑴⑹⑻决策树算法是一种归纳分类算法,它通过对训练集的学习,挖掘出有用的规则,用于对新集进行预测。决策树算法可设计成具有良好可仲缩性的算法,能够很好地与超大型数据库结合,处理相关的多种数据类型,并且,其运算结果容易被人理解,其分类模式容易转化成分类规则。因此,在过去的几十年屮,决策树算法在机器学习(machinelearning)和数据挖掘(datamining)领域一直受到广泛地重视。决策树算法以树状结构表示数据分类的结果。树的非叶结点表示对数据属性(attribute)的
2、测试。每个分枝代表一个测试输出,而每个叶结点代表一个分类。由根结点到各个叶结点的路径描述可得到各种分类规则。目前有多种形式的决策树算法。其中最值得注意的是CART和TD3/C4.5。许多其它的算法都是由它们演变而来。下面介绍决策树算法ID3(Quinlan,1979)在实际中的一例应用。决策树算法1D3使用信息增益(InformationGain)作为选择属性对节点进行划分的指标。信息增益表示系统由于分类获得的信息量,该量由系统爛的减少值定量描述。(Entropy)是一个反映信息量大小的概念。最终信息增益
3、最高的划分将被作为分裂方案。决策树和决策规则是实际应用中分类问题的数据挖掘方法。决策树表示法是应用最广泛的逻辑方法,它通过一组输入-输出样本构建决策树的有指导的学习方法。对于分类决策树来说,需要先对原始资料来进行分类训练,经由不断的属性分类后,得到预期的分类结果。判定树归纳的基本算法是贪心算法,它采用自上而下、分而治之的递归方式来构造一个决策树。ID3算法是一种著名的判定树归纳算法,伪代码如下:FunctionGeneratedecisiontree(训练样本samples,候选属性attributeli
4、st){创建节点N:ifsamples都在同一个类Cthen返回N作为叶节点,以类C标记;ifattribute_list为空then返冋N为叶节点,标记为samples中最普通类://多数表决定选择attributelist中有最高信息增益的属性testattribute:标记节点N为testattribute;foreachtest_attribute中的已知位ai//划分samples由节点N长出一个条件为test_attribute=ai的分枝;设Si是samples中testattribute二
5、ai样木的集合;//一个划分IfSi为空then加上一个树叶,标记为samples中最普通的类;Else加I上一个由Generate_desdecision_tree(Si,attribute_list_test_attribute)返冋的节点:}在树的每个节点上使用具有最高信息增益的属性作为当前节点的测试属性。该属性使得对结果划分中的样本分类所需的信息量最小,并确保找到一棵简单的树。二数据挖掘技术的基本概念⑺⑭数据挖掘是从大量数据屮挖掘出隐含的、先前未知的、对决策有潜在价值的知识和规则。它所挖掘出的规则
6、蕴涵了数据库中一组对象之间的特定关系,揭示出了许多有用的信息,为经营决策、市场策划、金融预测等提供依据。通过数据挖掘,有价值的知识、规则或高层次的信息能从数据库的相关数据集合中抽取出来,并从不同的角度显示,从而使大型数据库成为一个丰富可靠的资源,为知识归纳服务。数据挖掘发现的知识通常是以概念(Concepts)、规则(Rules)、规律(Regularities)、模式(Patterns)、约束(Constraints)、可视化(Visualizations)等形式表现。这些知识可以直接提供给决策者,用以
7、辅助决策过程,或者提供给领域专家,修正专家己有的知识体系,也可以作为新知识转存到相应系统的知识存储机构中,比如专家系统(ExpertSystem)、规则库等(RuleBase)o数据挖掘应用领域的不断扩展,为数据挖掘的发展带来了蓬勃的生机。三决策树在许多领域的应用基于决策树C4.5算法的我国商业银行信用风险评估模型实证分析⑵⑸1.实证分析的样本来源木文从某银行的信息系统中随机抽取了某行业(2004年)100个贷款企业的资料作为建模样本,其中有81个企业的财务数据资料完整,可以作为分析研究的对象。在这81个
8、企业中有64个企业贷款履约,17个企业贷款违约,不良贷款率为20.1%,与该行业的整体贷款不良率非常接近,因此,随机抽取的81个企业财务资料具有代表性,可以用此样本对总体进行统计推断。2.指标体系的建立适当地选择财务指标建立反映企业信用风险的指标体系,是信用风险评估的基础。依据全而性、有效性和可操作性的原则,选择了5个方面的9项指标构建了信用风险评估指标体系。(1)负债水平资产负债率XI。适度的资产负债率表明企业投资人、债权人
此文档下载收益归作者所有