基于改进的c4.5算法在成绩分析中的应用

基于改进的c4.5算法在成绩分析中的应用

ID:31359882

大小:107.50 KB

页数:6页

时间:2019-01-09

基于改进的c4.5算法在成绩分析中的应用_第1页
基于改进的c4.5算法在成绩分析中的应用_第2页
基于改进的c4.5算法在成绩分析中的应用_第3页
基于改进的c4.5算法在成绩分析中的应用_第4页
基于改进的c4.5算法在成绩分析中的应用_第5页
资源描述:

《基于改进的c4.5算法在成绩分析中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于改进的C4.5算法在成绩分析中的应用  摘要:该文介绍了数据挖掘中的一种改进的C4.5算法,简化了原C4.5算法中复杂的对数运算问题。并将该C4.5算法应用于《网站建设管理与维护》的成绩分析中,为教学提供相应的指导。  关键字:数据挖掘;改进的C4.5  中图分类号:TP311文献标识码:A文章编号:1009-3044(2015)27-0164-03  数据挖掘(DataMining)是从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则[1]。随着高校信息化的推进,仅是简单统计成绩分布的需求已不能满足当前教学

2、的需要,如何从庞大的教学数据中提取出有价值的知识,用于指导并提高教学,成为了当今大数据时代所关注的焦点。数据分类算法是数据挖掘中最重要的技术之一。决策树作为一种重要的数据分类方法,它能从一组没有任何关联的数据中寻找出它们的分类规则,并利用这些规则对这组数据以外的相似数据进行分类或预测。常见的决策树算法有:CART、ID3、C4.5等[2]。其中:C4.5算法是通过信息增益率进而进行属性的选择,可以支持对连续值和空缺值属性的处理。然而C4.5算法的缺点在于:在计算每个属性的信息量的时候,都需要用到对数函数来进行计算,由此增加了许多计算的时间和复杂

3、度。因此,本文找到一种对C4.5进行改进的算法,来尽可能少地减少计算量,从而加快树的生成速度。6  1改进的C4.5算法  2改进C4.5算法在成绩分析中的应用举例  《网站建设管理与维护》作为高职院校大三计算机专业实训课程,是将之前所学专业知识应用于网站实际开发中的综合技能的检验与提升。应用改进的C4.5算法来找出影响《网站建设管理与维护》的成绩因素,对教与学而言都起着重要的作用。  1)数据采集  根据本门课程的特点,本次研究所采集的数据来自两个部分:一部分源自于学校教务管理系统中的学生基本信息以及与《网站建设管理与维护》这门课相关的前导课

4、程的成绩数据。它们为:学号、姓名、性别、《ASP.net》、《Web编程基础(DW,div,css,ajax+HTML+JS)》、《XMLWebService开发》、《ADO.NET2.0》、《网站建设管理与维护》成绩。另一部分数据来自于学生问卷调查表的结果。包括:本课程兴趣程度、本课程课外所花时间。第三部分数据是由授课老师所提供学生本门课程的出勤率。本次共采集了1220条数据。  2)数据集成  数据挖掘一般都需要涉及多个数据源的数据。数据集成是将多个数据源中的数据结合起来,存于统一的数据表中。根据上一步所采集到的数据,以学生的“学号”为主键

5、,将它们汇总在一起。  3)数据清理  数据清理目的是去除数据中存在的噪声。针对第2)步收集成好的数据表,发现其中有些学生的某些成绩存在缺考的情况,则将它们直接删除。6  4)数据归约  数据归约是在原数据集的各属性中,选取与本次的挖掘任务关系密切的属性。因此,在第1)步所采集到的各成绩属性中,由于我们不是要研究某个前导课程对《网站建设管理与维护》这门课程成绩的影响,而是想了解学生之前所学的前导课程的总体学习情况对本门课程的影响程度。因此,对第1)步所采集到《ASP.net》、《Web编程基础(DW,div,css,ajax+HTML+JS)》

6、、《XMLWebService开发》、《ADO.NET2.0》这几门前导课程的成绩取平均值,形成“前导课程学习情况”列的数据。并将“学号、姓名、性别”这些相关度较小的属性删除。最后构建的相关属性表如下表1所示:  5)数据泛化  将“前导课程学习情况”所获得的成绩泛化为:85以上的为“优”,84~70分的为“良”,60~69分的为“中”,60以下的为“差”。由于前导课程60以下的,在《网站建设管理与维护》这门课最后的成绩基本也为不及格,对本次挖掘没有实质性意义,故将“前导课程学习情况”不及格的这部分数据删除。然后以“《网站建设管理与维护》成绩”

7、为本次挖掘任务的类别属性,规定:成绩中大于60分的为“合格”,小于60分的为“不合格”。最后所得到的数据共1170条。数据表的各属性如下表2所示:  6)利用改进的C4.5算法生成决策树  在表2中,以“前导课程学习情况”、“本课程到课率”“本课程兴趣程度”、“本课程课外所花时间”四个属性为决策属性,以“成绩”6为类别标识属性。根据改进C4.5算法所得到的公式(1-7)、(1-8)、(1-9),计算各个决策属性的信息熵,信息量和信息增益率,以“前导课程学习情况”为例,计算如下:  7)从决策树提取分类规则  从上图2-1中提取出如下的分类规则,

8、其中成绩“合格”的为:  ①IF到课率=“满勤”and前导课程成绩=“优”,then成绩为“合格”。  ②IF到课率=“满勤”and前导课程成绩=“良

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。