基于stl的关联规则在课程相关性中的应用

基于stl的关联规则在课程相关性中的应用

ID:10160295

大小:30.00 KB

页数:8页

时间:2018-06-12

基于stl的关联规则在课程相关性中的应用_第1页
基于stl的关联规则在课程相关性中的应用_第2页
基于stl的关联规则在课程相关性中的应用_第3页
基于stl的关联规则在课程相关性中的应用_第4页
基于stl的关联规则在课程相关性中的应用_第5页
资源描述:

《基于stl的关联规则在课程相关性中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于STL的关联规则在课程相关性中的应用摘要:将关联规则挖掘应用于计算机类课程的相关性分析,并利用STL中的排序算法对挖掘结果进行排序,这样能快速高效的挖掘出当中的规则。这样能发现计算机专业课程间的深层次内在关联,从而便于更科学合理的对计算机专业的课程进行设置,改善课程体系结构,使得培养出来的学生更能适应社会的瞬息变化,满足社会的需求。关键词:关联规则;课程相关性;计算机;STL中图分类号:G642.41文献标志码:A文章编号:1674-9324(2014)32-0162-02一、引言8课程之间是有一定前后顺序关系的,学习某一门课程可能会对另外一门课程产生影响,这种课程

2、相关性可以使用关联规则对学生课程成绩库进行挖掘,发现隐藏于数据背后的有价值的关系或规则,挖掘出课程间的内在关联,为学生学习和人才培养方案制定提供理论指导。为此,许多学者做了有益的尝试。文献[2]把粗糙集理论引入高校课程相关性分析中,以能在学分制体系下指导学生选课以及制定专业修读计划。文献[3]提出基于相关系数的关联规则算法用于挖掘课程相关性问题。文献[4]将改进的Apriori算法应用于高校教务管理系统,对历届学生各门课程成绩进行了分析。计算机类专业是更新速度很快的专业之一,同时该专业还是全国各高校普遍开设的专业之一。为了满足社会对人才的需求,近两年来梧州学院计算机科学

3、系在原有的计算机科学与技术本科专业,软件工程专业的基础上申请了数字媒体专业,物联网工程专业,其中计算机科学与技术专业还分为嵌入式系统,信息安全,计算机网络三个方向。新专业,新方向的产生带来了许多全新的专业课程。要开设哪些课程,课程的安排顺序如何?同时还要兼顾总课时的问题,这些情形让类似于梧州学院这样地处边远山城且新升格的地方本科院校来说,一切都还在摸索中。因此本文选取计算机类课程进行相关性分析更有意义。为了快速而高效地挖掘出更有价值的规则,在进行关联规则挖掘的基础上利用惠普实验室开发的C++标准模板库(StandardTemplateLibrary,STL)对挖掘结果进

4、行了排序。二、关联规则介绍关联规则挖掘是从大量数据中挖掘出有价值的、描述数据项之间相互联系的有关知识,最早是1993年由Agrawal等人对市场购物篮分析提出,其经典算法有Apriori算法及一些改进算法。Apriori算法的核心思想是采用逐层递推的方法通过多趟扫描数据库D来发现所有的频繁项集,每一趟扫描含项个数相同的项集。8三、基于STL的关联规则在课程相关性中的应用如果采用Apriori算法进行课程相关性分析,由于该算法需要多趟扫描数据库,因此时间复杂度较高且效率较低。并且课程相关性分析中用到的数据集不同于购物篮中的数据,购物篮中的数据对于任何一件商品,只存在被买或

5、不买这两种情况,对于不被购买的情况可以直接进行删除。而课程成绩存在多种情况,即使进行了离散化,也至少存在3种以上的区间,这些区间之间是平等的关系,不能简单的进行删除来减少挖掘的量。本文基于STL的关联规则挖掘对计算机类课程的相关性进行分析,分析流程主要包括确定挖掘对象、数据预处理、算法挖掘的过程,STL排序及结果分析,知识运用。1.确定挖掘对象。明确挖掘的目的并清晰定义问题后就能开始着手挖掘工作了。虽然挖掘的结果是不可预测的,但探索的问题应该是可以预见的。本文选取了2006级到2009级共五届软件工程专业毕业生在校四年的学习成绩作为数据源,挖掘某门课程对其他课程的影响程

6、度。为减少不必要的影响因素,影响关联规则的产生,删除了思想政治类、体育类等课程成绩,只留下英语类、数学类、计算机类等课程,最终选取了《计算机导论》、《C语言程序设计》、《数据结构》等29门课程作为研究对象。82.数据预处理。采集到的初始数据往往存在冗余数据、不完整不一致的“脏数据”或数据不够简洁等情况,这些数据不能直接应用于挖掘,需要进行数据预处理,包括数据清理、数据集成和数据变换等过程。(1)数据清理。通过填写空缺值、平滑噪声数据,识别、删除孤立点,并解决“不一致”来达到数据清理的目的。从教务管理系统导出的学生成绩表包括序号、学号、性别、课程名、总评成绩、备注等,清除

7、了转专业、入伍、退学等课程未修完学生的信息。由于选取的是已经毕业的学生的成绩,所以留下的都是能拿到毕业证的学生的成绩,即课程成绩最少为60分的数据。备注栏注明的缓考,重修等信息的意义不大,所以删除掉备注字段。经数据清理后得到的数据如表1所示。(2)数据集成。将多个数据源合并成一致的数据存储。将多个数据源合并成一致的数据存储,把这5届毕业班的成绩合并成一个Excel表格中,最终数据包括1000名毕业生的29门课成绩,共29000条记录。(3)数据变换。为了将数据转换成适合于挖掘的形式,考虑到课程成绩是以数值形式表示的,不便于数据挖掘,因此对

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。