欢迎来到天天文库
浏览记录
ID:57742309
大小:155.71 KB
页数:2页
时间:2020-03-26
《数据挖掘在高校教务及科研管理中的应用.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、2009年第4期ScienceandTec科hn技olo管gy理M研an究agementResearch2009No.4文章编号:1000—7695(2009)04—0109—02数据挖掘在高校教务及科研管理中的应用查东辉,胡致杰(1.广东工业大学计算机学院,广东广州510006;2.肇庆科技职业技术学院信息工程系,广东肇庆526020)摘要:在学分制体系下,如何进行教学管理和学生培养,成为高校建设的主要问题。本文提出通过构建基于教务数据的决策树分类模型,来解决学分制体系下的学位认证等问题,为管理者提供有
2、益的帮助。关键词:数据挖掘;高校教务管理;决策树;分类中图分类号:C931.1文献标识码:A随着现代教育的发展,学分制作为高校的一种教学管理数据抽取:是把已修总学分达到毕业要求学分的学生记制度,受到越来越多的关注。它的特点是以学分作为学习的录抽取出来,为进一步的数据预处理作准备。计量单位,以取得必需的最低学分作为毕业和获得学位的主数据简化:对入学方式、课程类型、学期、补考、重修要标准,其最大优点是原则性和自主性相结合。但在学分制1、重修2、重修3和重修4等对学生分类无关的属性和专业下,教学管理过程浮现出不
3、少新问题。比如,由于学生可以名称进行删除操作,以达到简化数据的目的。自由选择课程,因此,当学生修学了多个专业的课程,并通数据转换:一是构造和添加“专业大方向”、“课程总学过考试获得学分以后,学校如何进行学生的学位认证呢?分”、“专业必修课总学分”、“专业必修课程总数”四个新的属性,以使数据更适合进行挖掘,以提高精度和对高维数据1数据挖掘与决策树分类结构的理解。二是把当前的非事务数据库的纵向数据存储结数据挖掘就是从大量的、不完全的、有噪声的、模糊的、构转换为事务数据库的横向存储结构。随机的数据中,提取隐含在
4、其中的、人们事先不知道的、但数据装载:主要是将经过抽取、简化和转换后的数据加又是潜在有用的信息和知识的过程。当数据挖掘技术与方法载到数据仓库/集市里,即入库,操作者可以通过数据文件直论发展到一定的程度之后,其结果就是应用,即构造数据挖接装载或直连数据库的方式来进行数据装载。掘系统。’2.2构建基于教务数据的决策树分类模型数据分类是指按照分析对象的属性、特征,建立不同的建立决策树的总样本量为1873。表1给出了数据预处理组类来描述事物,是数据挖掘的主要内容之一,它是通过分后学生成绩数据库数据元组训练集。类标
5、号属性“专业名析训练数据样本,产生关于类别的精确描述。称”有6个不同值(计算机科学技术,软件工程,信息系统基于决策树的分类方法是一种监督学习的方法。决策树工程,思想政治教育,法学,政治学与行政学),因此有6个是一个类似于流程图的树结构,其中每个内部结点均表示在不同的类(m=6),依次用Cl,C2,C3,C4,C5,C6与之一个属性上的测试,每个分枝代表一个测试输出,每个树叶对应。类“计算机科学与技术”有843个样本,类“软件工结点代表类或类分布。决策树学习算法则是以实例为基础的程”有168个样本,类“信息
6、系统工程”有47个样本,类归纳学习算法,通常用来形成分类器和预测模型,可以对未“思想政治教育”有234个样本,类“法学”有370个样本,知数据进行分类或预测、数据预处理、数据挖掘等。它通常类“政治学与行政学”有211个样本。包括两部分:树的生成和树的剪枝。表1学生成绩数据库数据元组训练集2决策树在学位认证中的应用专业大方向专业必修课总学分专业必修课总数专业名称在完全学分制下,学生虽说可以根据自己的兴趣、爱好进行自由选课,但自由选课也必须在一定的范围内进行,这个范围就是学生欲修专业的大方向。在根据学生所修课
7、程进行分类时,首先对学生进行院系分类,即专业大方向分类;再在专业大方向下进行具体专业分类,具体专业分类的类别就是学生毕业文凭的类别。通过对学生所修课程的种类进行分析,建立基于决策树的学生分类模型,从中提取出分类规则,便可解决完全学分为计算每个属性的信息增益,先使用公式:制下学生毕业时的毕业认证问题。2.1构造决策树前的数据预处理,=(s,2,⋯,)=一∑l。g2()ll数据预处理是数据挖掘的重要一环,而且必不可少。在计算对给定样本分类所需的期望信息:构造决策树前需对数据进行数据抽取、数据简化、数据转换,(
8、sI,S2,⋯,s6):,(843,168,47,234,370,211)和数据装载等数据预处理操作收稿日期:2008—07—10,修回日期:2008—11—28110查东辉等:数据挖掘在高校教务及科研管理中的应用=一一1873×l。0g2一1873⋯⋯一一一1873×州l0。g2而=0.。649下一步,需要计算每个属性的熵。从属性“专业大方向”开始。需要观察“专业名称”的每个样本值的分布。对每个分布计算期望信息。对于“计算机
此文档下载收益归作者所有