欢迎来到天天文库
浏览记录
ID:39541117
大小:3.39 MB
页数:4页
时间:2019-07-05
《基于决策树技术的高校学生成绩分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、科
2、学
3、技
4、术基于决策树技术的高校学生成绩分析[1][1][2]杨小云陈韬伟杨曌([1]云南财经大学信息学院云南·昆明650221;[2]江苏科技大学公共管理学院江苏·镇江212003)摘要决策树算法是数据挖掘中的重要技术之一,具有出色的数据分析能力和直观易懂的结果展示等特点。本文利用SPSSModeler提供的决策树分类算法对高校学生的成绩进行更深层次的有效分析,发现隐藏在成绩数据中的规律或模式,考察大学计算机基础考试中不同部分对总成绩的影响程度,从而进一步提高高校的计算机基础课程的教学水平。关键词数据挖掘决策树成绩分析中图分类号:TP311.13文献标识码:A0引言决策树算法
5、的目的是通过向数据学习,获得输入变量和随着我国高等教育信息化建设的快速发展,许多高校都输出不同取值下的数据分类和预测规律,并用于对新数据对已经建立起了校园精品课程、数字化图书馆、网络实验室等信象分类的预测。息化应用,在知识共享上不断完善求新。同时,校园服务、校1.2关联规则园信息发布、在线教学等数字化校园平台的建设实现了数据关联规则用来揭示数据与数据之间未知的相互依赖关系。的共享与系统的整合。由一个条件和一个结果组成的,形如IF...THEN的简单形式就传统的学生成绩分析还停留在简单的查询及简单的数字叫做规则,关联规则挖掘就是扫描整个数据集,从中找出具有统计阶段。如查询某个学生的
6、某门课程的成绩,统计某门课给定的最小支持度和最小置信度的关联规则。其中最具代表程的优、良、中、差各个成绩段的学生人数,统计成绩的均值、性的是R.Agrawal提出的Apriori算法。方差、置信度等。己有的分析研究仅仅从理论上对可行的评1.3神经网络价机制进行讨论,而隐藏在这些数据后的其他有用信息很难神经网络是以人脑为基础的抽象模型,它模拟真实人脑能够发掘出来。神经网络的结构和功能,将众多结构和功能极其简单的神经另一方面,信息化应用中获取的大量教学信息使得各种元通过各种方式联接成一个复杂的网络结构,以实现复杂的新的属性不断出现,增加了学生的信息存量,大量的学生信息智能行为,构成一
7、个类似于人脑结构的非线性预测模型,通过以及学习数据没有发挥其相应的作用。这些信息从一定的角学习进行模式识别。神经网络具有两大特点——自学能力和度上反映了学生在新的教学模式下所特有的学习行为,为研自适应能力。究学生的学习行为提供了依据与基础。本文就是在这些大量1.4聚类分析的数据基础上,结合数据挖掘的决策树分类技术,从学生的学聚类是将数据集分成若干不同的类,使得在同一类的数习成绩入手,收集、整理和分析学生的行为信息,总结和发掘据对象尽可能相似,而不同类中的数据尽可能相异。聚类与在新的学习模式下对教学质量及其学习效果的影响,为教师分类的根本区别在于:分类需要事先知道所依据的对象特征,
8、日常教学和学生学习的改进提供依据。而聚类是在不知道对象特征的基础上要找到这个特征。1数据挖掘技术综述以上介绍了数据挖掘的基本知识,包括数据挖掘的概念、数据挖掘(DataMining),就是从大量的、不完全的、有噪声数据挖掘的功能、数据挖掘的过程及步骤,以及数据挖掘中常的、模糊的、随机的原始数据中,提取隐含在其中的、人们事先用的各种技术。而且现在的数据挖掘软件,不管是开源还是不知道的、但又是潜在有用、可信的信息和知识的过程。是一商用都已经很成熟了,也提供易用的可视化界面,集成了数据门广义的交叉学科,它的发展和应用涉及到不同的领域,尤其处理、建模、评估等一整套功能。本文尝试使用Sps
9、smodeler是数据库、人工智能、数理统计、可视化、并行计算等。[7,8]数据挖掘工具,采用决策树分类技术,对所采集的学生考数据挖掘技术有两大基本功能,即描述功能和预测功能。试成绩数据进行分析挖掘,形成分类规则,从而更好的分析和描述功能是指描述数据库中数据的一般性质。预测功能是指预测成绩数据。对当前数据进行推断,以便做出预测。2高校学生成绩的决策树模型数据挖掘研究的对象是大量隐藏在数据内部的有价值的2.1决策树技术信息,如何获取有价值感兴趣的信息是我们所要解决的主要决策树技术是通过学习,获得输入变量和输出变量不同问题。接下来简单介绍数据挖掘中应用较为广泛的常用的一取值下的数据分
10、类和预测规律,并用于对测试集的分类预测。些技术。它主要由两个阶段组成。1.1决策树方法第一阶段,建树阶段。选取训练数据集进行学习,导出决—科教导刊(电子版)·2015年第7期(中)—149科
11、学
12、技
13、术策树。建树的流程图如图1所示:预处理,以提高数据挖掘对象的质量,有助于提高后面挖掘过程的精度和性能。因此,对数据变量的管理和样本管理是建立数据模型的前提和基础。图2表示了对学生成绩数据进行的预处理数据流,其中包含了对数据源的追加、合并、填充和过滤。最终确定了进行分类的重要输入字段为
此文档下载收益归作者所有