欢迎来到天天文库
浏览记录
ID:21498431
大小:25.50 KB
页数:5页
时间:2018-10-22
《基于决策树技术的数据挖掘的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于决策树技术的数据挖掘的应用 摘要数据挖掘技术对于处理还有大量数据的数据集具有十分重要的作用,而对于数据的分类中,我们常常使用决策树分类法。该方法被广泛用于处理数据的分类问题.决策树分类法在我们的生产、生活、学习等数据挖掘中具有十分重要的作用,它是数据挖掘中进行预测和分类研究的主要技术。 【关键词】数据挖掘决策树分类 数据挖掘中的分类任务主要是为了确定对象属于哪个预定义的目标类。在我们的日常生活中,这一问题普遍存在,例如我们会根据需要来检查接受到的电子邮件是否为垃圾邮件。在数据挖掘中的所有分类方法里,决策树分类法是一种最为简单且被广
2、泛使用的分类方法。 1决策树分类法的工作原理 决策树是一种由结点和有向边组成的层次结构,它主要有根节点、内部结点和叶结点构成。当我们分析一个分类实例时可以先去建立一个决策树,根据决策树分类,从决策树的根节点开始,将测试的条件用于记录的检验,根据测试结果选择相应的分支到达另一个内部节点,经过一个新的选择条件或者选择相应的分支到达一个叶节点。最终都会到达一个叶节点,这一叶节点的类别即为被赋值给此检验记录的。 2决策树的建立过程 人们开发了一些决策树构造算法,主要采用的是贪吃算法的思想,利用局部最优的方法来建立决策树。算法分为两步,第一步
3、,决策树的生成过程。第二步,决策树的剪枝,如图1所示。 3决策树构造算法 (1)导入决策树构造过程中所需要的函数库; (2)查看需要构造决策树的源数据; (3)通过rpart函数构造一个决策树; (4)查看决策树的一些具体的信息和内容; (5)绘制出决策树图; (6)对决策树进行适当的剪枝,防止过拟合,使得树能够较好地反映数据内在的规律并在实际应用中有意义; (7)对剪枝后的决策树图进行绘制,得到最终的决策树,对其进行相应分析和研究。 4决策树技术在职业院校学生的成绩分析中的研究与应用 4.1决策树技术在职业院校学生的成
4、绩分析中的研究与应用的意义 现如今,国家开始越来越重视职业教育,各个职业院校开始不断的扩大招生的规模,越来越多的学生开始选择进入职业院校去学习一门扎实的技术。这些改变不仅了影响了传统的招生模式,也影响了教师对学生的成绩的评定方法。对于职业院校的学生的成绩并不能单纯通过考试的分数来评定学生的学习水平,而是要综合考量学生的知识和技能水平。不少职业院校开始使用数据挖掘技术分析学生的学习成绩,这不仅可以对学生的学业水平做出更科学的评定,而且对提高教学管理水平起到了很好的指导作用。 4.2决策树技术在职业院校学生的成绩分析中的研究与应用的过程
5、4.2.1确定数据挖掘的对象及挖掘的目标 本文对数据挖掘中的分类技术的研究,利用的是某校动画设计班的Flash动画制作课程的期末考试成绩。通过决策树技术,找到对于学生成绩的主要影响要素,对教师的教学及学校的管理提供相应的帮助。 4.2.2数据的收集与预处理 我们将所要使用的数据进行收集和整理,其中包括了20名学生的学号、出勤情况、上机作业的完成情况、成绩、试卷难易、兴趣。部分数据如表1所示。 4.2.3算法的选定 通过分析成绩数据的特点,此次研究我们将采用决策树技术中的ID3算法来建立决策树。 第一步,计算熵 任课教师对学生的
6、成绩评定结果中等级为A的共有8人,等级为B的共有7人,等级为C的共有5人。我们把样本数据S记为S1=8,S2=7,S3=5,计算熵。 Info(S)==0.469 第二步,计算信息增益 学生的出勤情况中,出勤较好等级为A的有7名同学,其中有5个测试成绩为A,2个为B;出勤为B的有10个同学,其中有3个成绩为A,5个成绩为B,2个成绩为C;出勤为C的有3个,成绩均为C。计算熵: Info(A)=0.26 Info(B)==0.447 Info(S)==0 计算增益: Gain(出勤)=Info(S)-(7/20)*Info(A
7、)-(10/20)*Info(B)-(3/20)*Info(C)=0.15 以上机作业作为根的决策树的熵和增益: Info(A)=0.26 Info(B)==0.47 Info(C)=0.29 Gain(上机作业)=Info(S)-(7/20)*Info(A)-(8/20)*Info(B)-(5/20)*Info(C)=0.118 以学生对于试卷难度的评定为根节点时: Info(高)==0.47 Info(中)==0.45 Info(低)=0.3 Gain(试卷难度)=Info(S)-(7/20)*Info(高)-(11
8、/20)*Info(中)-(2/20)*Info(低)=0.027 以学生兴趣作为根节点时: Info(感兴趣)==0.37 Info(一般)==0.42 Info(不感
此文档下载收益归作者所有