欢迎来到天天文库
浏览记录
ID:46293904
大小:92.00 KB
页数:6页
时间:2019-11-22
《[精品]决策树算法及应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、决策树算法及应用一决策树算法简介⑴⑹⑻决策树算法是一种归纳分类算法,它通过对训练集的学习,挖掘出有用的规则,用丁•对新集进行预测。决策树算法可设计成具冇良好可伸缩性的算法,能够很好地与超大型数据库结合,处理相关的多种数据类型,并且,其运算结果容易被人理解,其分类模式容易转化成分类规则。因此,在过去的几十年中,决策树算法在机器学习(machinelearning)和数据挖掘(datamining)领域一直受到广泛地重视。决策树算法以树状结构表示数据分类的结果。树的非叶结点表示对数据屈性(attribute)的测试。每个分枝代表一个测试输出,而每个叶结点代表一个分类。出根结点到各个叶结点
2、的路径描述可得到各种分类规则。打前冇多种形式的决策树算法。其屮最值得注意的是CART和ID3/C4.5。许多其它的算法都是由它们演变而来。下面介绍决策树算法ID3(Quinlan,1979)在实际中的一例应用。决策树算法1D3使用信息增益(InformationGain)作为选择屈性对节点进行划分的指标。信息增益表示系统由于分类获得的信息量,该量由系统爛的减少值定量描述。®(Entropy)是一个反映信息量大小的概念。最终信息增益最高的划分将被作为分裂方案。决策树和决策规则是实际应用中分类问题的数据挖掘方法。决策树表示法是应用最广泛的逻辑方法,它通过一组输入-输出样本构建决策树的冇指
3、导的学习方法。对于分类决策树來说,需要先对原始资料來进行分类训练,经出不断的属性分类后,得到预期的分类结果。判定树归纳的基木算法是贪心算法,它采用自上而下、分而治之的递归方式来构造一个决策树。ID3算法是一种著名的判定树归纳算法,伪代码如下:FunctionGcncratc_dccision_trcc(训练样木samples,候选屈性attributelist){创建节点N:ifsamples都在同一个类Cthen返回N作为叶节点,以类C标记;ifattribute_list为空then返冋N为叶节点,标记为samples屮最普通类://多数表决定选择attribute_list屮冇
4、最高信息增益的屈性test_attribute:标记节点N为tcst_attributc;foreachtest_attribute中的已知位ai//划分samples由节点N长出一个条件为test_attribute=ai的分枝;设Si是samples中testattribute=ai样本的集合;//一个划分IfSi为空then加上一个树叶,标记为samples中最普通的类;Else加上一个曲Genereite_desdecision_tree(Si,attribute_list_test_attribute)返冋的节点:}在树的毎个节点上使用具有最高信息增益的属性作为当前节点的测
5、试属性。该属性使得对结果划分屮的样本分类所需的信息量最小,并确保找到一棵简单的树。二数据挖掘技术的基本概念⑺⑭数据挖掘是从人量数据中挖掘出隐含的、先询未知的、对决策冇潜在价值的知识和规则。它所挖掘出的规则蕴涵了数据库屮一组对象之间的特定关系,揭示出了许多有用的信息,为经营决策、市场策划、金融预测等提供依据。通过数据挖掘,冇价值的知识、规则或高层次的信息能从数据库的相关数据集合中抽取出来,并从不同的角度显示,从而使大型数据库成为一个丰富可靠的资源,为知识归纳服务。数据挖掘发现的知识通常是以概念(Concepts)、规则(Rules)、规律(Regularities)、模式(Patter
6、ns)、约束(Constraints)、可视化(Visualizations)等形式表现。这些知识可以直接提供给决策者,用以辅助决策过程,或者捉供给领威专家,修正专家已冇的知识体系,也可以作为新知识转存到相应系统的知识存储机构中,比如专家系统(ExpertSystem)、规则库等(RuleBase)。数据挖掘应用领域的不断扩展,为数据挖掘的发展带來了蓬勃的生机.三决策树在许多领域的应用基于决策树C4.5算法的我国商业银行信用风险评估模型实证分析⑵⑸1.实证分析的样木来源本文从某银行的信息系统中随机抽取了某行业(2004年)100个贷款企业的资料作为建模样本,其屮冇81个企业的财务数据
7、资料完整,可以作为分析研究的对象。在这81个企业中有64个企业贷款履约,17个企业贷款违约,不良贷款率为20.1%,与该行业的整体贷款不良率非常接近,因此,随机抽取的81个企业财务资料具有代表性,可以用此样木对总体进行统计推断。1.指标体系的建'、/〔适当地选择财务指标建立反映企业信用风险的指标体系,是信用风险评估的基础。依据全面性、有效性和可操作性的原则,选择了5个方面的9项指标构建了信用风险评估指标体系。(1)负债水平资产负债率XI。适度的资产负债率表
此文档下载收益归作者所有