数据挖掘中决策树分类算法的分析

数据挖掘中决策树分类算法的分析

ID:32199063

大小:4.06 MB

页数:55页

时间:2019-02-01

数据挖掘中决策树分类算法的分析_第1页
数据挖掘中决策树分类算法的分析_第2页
数据挖掘中决策树分类算法的分析_第3页
数据挖掘中决策树分类算法的分析_第4页
数据挖掘中决策树分类算法的分析_第5页
资源描述:

《数据挖掘中决策树分类算法的分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、万方数据数据挖掘中决策树分类算法的研究的定义可以得知,其主要功能和用途便是用于预测新的数据,正好可以用于个人信用等级评定系统中,用以预测新客户的信用等级情况。综上所述,要解决当前商业银行对个人贷款风险管理存在的缺陷,利用已有的客户数据预测新客户的信用等级,建立一套完整的个人信用等级评定系统,需要利用数据挖掘技术中分类方法。由此确定课题研究的主题是:学习研究数据挖掘中分类方法,将其应用到商业银行个人信用等级评定中,建立一套合理可行的个人信用等级评定系统。1.3确定分类方法分类算法发展至今,其技术应用都已经较为成熟,而且常见的种类比较多,但并不是每一种都适用于商业银行中的个人信用等级评定,要经

2、过综合对比,分析各种方法的优缺点,才能决定最适合的分类方法。1.3.1常见分类方法分类过程主要有两个步骤:一是通过建模(分类器)来表现预定的训练集:二是利用模型进行预测分类n1。分类在诊断病情、预测性能、购物选择和信誉证实等实际中的应用成功案例比较多,技术也比较成熟瞳1。目前,分类挖掘技术在各个领域建立的典型模型主要有:决策树、线性回归、神经网络、基于规则模型和贝叶斯信念网络模型等n1。(1)决策树分类H3决策树采用自顶向下的方式递归建立模型,致力于从无规则、无秩序的数据中推出到分类规则,最终呈树状结构。决策树每进行一次分裂,都会在结点处进行一次属性值比较,判断下一步的分支走向,直到在叶结

3、点出得到结论。最终形成的决策树就是一个完整模型和表达式规则,一条路径对应一条规则。决策树的优点:简单高效、通俗易懂。在学习过程中,只要能将“属性一结论”规则表达式总结出来,用户就能直接使用。(2)贝叶斯分类畸1贝叶斯分类算法的核心是概率统计知识,在使用时,首当其冲应该获得概率的初始知识。该算法使用贝叶斯定理计算未知类别样本所属类别,由于贝叶斯定理受属性间独立性影响,因而属性间独立性越强、分类误差率越低,反之则越高。3万方数据硕士学位论文该算法的优点:误差率低、方法简单、运行速度快,能运用到大型数据集中。(3)基于支持向量机分类嗨3该算法的基础是数学理论中统计学理论及其优化技术。仅使用正例集

4、作为输入数据,识别正例集中的孤立点作为反例,再按照一定的标准递归完成分类。其优点是:非线性、维数及泛化能力等方面明显优于决策树等分类方法。缺点在于:按照时间顺序收集数据间的关联关系未被考虑、向量机需要随时间变化进行重新训练。(4)基于AIS模型分类算法"1该算法的分类思想:寻找样本集合中主要类别的分类规则,将样本集划分为一个主类和其他类,再对其他类按照同样的方式递归划分。算法分类的同时产生规则,过程中多次利用阴性选择算子对初始规则集、最终规则集、遗传算法进化后的规则反复检验,删除不符合条件的规则,最终得到完整的规则集合。其他一些比较常见的分类算法还包括:神经网络、粗糙集合方法、k最邻近分类

5、和模糊集方法等。1.3.2分类方法判定标准数据挖掘分类方法发展至今,技术成熟、种类较多,要通过其建立一套合理可行、适合商业银行现状的个人信用等级评定系统,就必须要有一个科学的标准来确定研究方法。经过查阅银行关于个人信用等级评定的相关文献以及在中国农业银行贵阳市花溪区支行等单位实地调查论证,可以依据以下几个方面的标准来确定用于研究的分类方法。分类精度:也就是分类预测的准确率。在商业银行实际运行过程中,错误的将一个信用差的客户评定为信用好的客户,并错误的将巨额贷款贷给其使用,这样的情况给银行带来的损失是极为惨重的。因此,在个人信用等级评定系统中,分类预测的准确率高,才能更为准确的评定客户信用等

6、级,为商业银行规避风险、作出决策提供更为有效的帮助。模型效率:也就是通过该分类方法建立的模型,处理数据量较大的情况时的效率。在建立模型过程中,训练数据量越大,越能更为充分的体现数据的规律,建立的模型可靠性必然越高,效率也就越高,越能处理大型数据。银行客户数据量非常大,个人信用等级评定中需要处理的数据量也很大,因此,在选择分类模4万方数据数据挖掘中决策树分类算法的研究型时,效率是必须要考虑的一个重点因素。非数值型数据的处理:在银行客户数据中,很多数据是非数值型数据,如:借贷人的工作性质,其对应的数据便是失业、普通员工、公务员、教师、医生等非数值型数据,而在评定借贷人的信用等级时,工作性质又是

7、必须要考虑的重点因素,这就要求选择的分类模型必须要有处理非数值型数据的能力。运行速度:模型的运行速度也是必须要考虑的一个因素。运行速度越快便能节约大量的时间成本,方便银行员工办理更多的业务,为银行带来更多的效益。模型结构:除上述因素外,模型结构也是一个需要考虑的因素。模型结构越简单,在应用过程中,越不需要考虑更多的专业背景知识,建立的模型可扩展性也就越高,实用性必然也就更高。1.3.3确定分类方法通过前面对常见分类算法的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。