欢迎来到天天文库
浏览记录
ID:34624793
大小:149.11 KB
页数:3页
时间:2019-03-08
《apriori算法在学生成绩分析中的应用研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、实践与经验Apriori算法在学生成绩分析中的应用研究杨洪伟,许童羽(沈阳农业大学信息与电气工程学院,沈阳110866)摘要:高等学校积累了大量的学生成绩信息,而从成绩中得到的信息量相对较小,造成资源的极大浪费。利用关联规则挖掘算法Apriori,以学生成绩数据库作为研究对象,挖掘课程之间的相关关系,为教务部门设置安排课程提供理论指导。关键词:Apriori算法;最小支持度;最小置信度;成绩分析0引言门课程的所有成绩,某些记录难免会有一些差错或者从经验上看没有关联,为了便于进行数据挖掘,只学生的各科考
2、试成绩一直以来作为国内各高等选取01届计算机专业学生的《计算机网络》等8门院校评价学生学业以及综合素质的重要指标,各高课程成绩作为挖掘对象,去掉所有其他不必要的字校经过长期的积累都储存了大量的学生成绩信息,段,删除空白以及数据有缺失的记录。清理后的数据但对成绩的分析处理一般还停留在简单的查询和统表部分数据如图1所示。计阶段,例如统计优、良、及格、不及格等级别的人数以及计算平均成绩、标准差等指标,而对于学生取得这些成绩与课程之间的关系有无关联往往没有深入了解。如果能够合理开发利用这些数据,找到课程之间的
3、相关关系对学生成绩的影响,必将对课程的设置与安排具有重大的指导意义。1研究对象以沈阳农业大学01届计算机专业学生在校四图1原始数据表年的学习成绩作为数据源,选取成绩数据库中《计算机网络》、《外语》、《工科高数》、《计算机基础》、《操作2.2数据转换学生成绩是以数值形式表示的,不便于进行数系统》等8门课程作为研究对象,挖掘出某门课程对据挖掘,因此对各科成绩进行离散化处理,即转换为于其他课程的影响程度,为教务人员以后安排课程优、良、中、及格、不及格5个等级。大于90分的为提供参考,为学生选课提供指导。“
4、优”,80~90分之间的为“良”,70~80分之间的为2数据预处理“中”,60~70分之间的为“及格”,小于60分的为“不2.1数据清理及格”。“优、良、中、及格、不及格”5个等级分别用数原始数据库中包含全校各个专业、各个年级、各字“1、2、3、4、5”表示,用“A”表示计算机网络,“B”表收稿日期:2010-02-01修稿日期:2010-03-01作者简介:杨洪伟(1976-),男,硕士研究生,研究方向为软件开发技术与计算机网络趬趲现代计算机2010.03实践与经验示数据结构,“C”表示计算机基础,
5、“D”表示外语,以该程序中依然运用了Apriori算法的性质:如果一个此类推。将各科目字段设置为字符型,转换后的数据项集是频繁的,则它的所有子集也是频繁的。设最小表部分数据如图2所示。支持度为30%,产生频繁项目集56个,从产生的频繁项集中确定它们的子集,然后根据关联规则挖掘算法原理,设最小置信度为60%,由程序得出关联规则18个,部分规则如表1所示。表1关联规则表圯圯
6、圯 圯 圯 圯图2转换后数据表3研究方法4结果与分析3.1Apriroi算法基本原理由表1可知,有很多课程间的相关关系是与教Apriroi算法是一个基于两阶段频繁项集的数据学经验相符的,例如规则1说明,《数据结构》成绩在挖掘方法,将关联规则挖掘算法分为两部分:一是找80~90分之间,《高级语言程序设计》成绩也在80~90到所有支持度大于最小支
7、持度的项集,二是使用第分之间的支持度为66.8%,置信度为89.2%,说明学一步找到的频繁项集产生期望的规则。好《数据结构》课程对学好《高级语言课程》起到关键首先产生频繁1-项集L1,然后是频繁2-项集作用,以后安排课程时可以将《数据结构》安排在前,L2,直到有某个r值使得Lr为空,算法停止。这里在教师授课中要督促学生学好这门课程,打好基础。第k次循环中,过程先产生侯选k-项集的集合Ck,规则3说明《外语》成绩在70~80分之间,《高级语C中的每一个项集是对两个只有一个项不同的属于言程序设计》成绩在8
8、0~90分之间的支持度为61.6%,kLk-1的频繁集做一个(k-2)连接来产生的。Ck中的项置信度为79.8%,规则4说明《计算机基础》成绩在集是用来产生频繁集的候选集,最后的频繁集Lk必70~80分之间,《高级语言程序设计》在80~90分之须是Ck的一个子集。如果Ck中某个候选集有一个间的支持度为72.6%,置信度为85.7%;这两个规则(k-1)子集不属于Lk-1,则这个项集可以被修剪掉不表示公共基础课程《外语》和《计算机基础》对学好计予考虑。算机
此文档下载收益归作者所有