数据挖掘在学员综合信息管理系统中的应用研究

数据挖掘在学员综合信息管理系统中的应用研究

ID:10154732

大小:30.00 KB

页数:8页

时间:2018-06-11

数据挖掘在学员综合信息管理系统中的应用研究_第1页
数据挖掘在学员综合信息管理系统中的应用研究_第2页
数据挖掘在学员综合信息管理系统中的应用研究_第3页
数据挖掘在学员综合信息管理系统中的应用研究_第4页
数据挖掘在学员综合信息管理系统中的应用研究_第5页
资源描述:

《数据挖掘在学员综合信息管理系统中的应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、数据挖掘在学员综合信息管理系统中的应用研究摘要:应用数据挖掘技术对数据进行分析,可以有效解决传统数据分析方式只能获取数据表面的信息,无法发现数据中潜在的联系和规律这一问题。通过将开源的数据挖掘工具WEKA中的决策树模块集成到学员综合信息管理系统中,应用决策树c4.5算法对学员数据进行挖掘,从生成的决策树模型中提取出分类规则,将分类规则进行分析后发现有价值的信息,利用这些信息可以为教学管理部门决策提供依据,从而提高学员培养质量。关键词:学员管理;数据挖掘;决策树;知识发现1引言随着计算机和网络技术的快速发展,军队院校的各项管理工作对军队院校信息化建设提出了更高的要求。学员管理工作贯穿于学

2、员在校期间学习和生活整个过程,是军队院校管理工作的重要环节。学员管理信息化是军队院校信息化建设的重要方面,直接反映了军队院校的管理水平。8许多军队院校己经应用了各种管理信息系统,积累了大量的原始数据。传统的求平均值和排序进行数据的统计分析,只能得到表面的结果,无法发现数据中隐含的关系和规则,导致隐藏在这些数据中的丰富信息资源一直没有得到很好的应用,经常发生“数据丰富而信息贫乏”的现象。如何通过科学的分析方法和先进的技术手段对这些数据进行更高层次的分析,从数据中提取出有价值可利用的信息,同时利用这些信息提高学员的培养质量,是很多军队院校正在考虑的问题。数据挖掘被认为是解决数据丰富但信息贫

3、乏的有效途径之一,简单来说就是从大量数据中发现隐藏的、未知的、有应用价值的知识的过程。通过数据挖掘对数据进行深入科学的分析,利用数据挖掘得到的结果,为学员培养工作提供科学合理的决策依据,从而提高学员培养质量。2数据挖掘概述数据挖掘的定义是从大量的,可能不完整、模糊、随机或是含有噪声的实际应用数据中,提取出隐藏在其中的、结果事先无法预见的、同时具有实用价值的信息的过程。这个定义包含好几层意思:首先必须使用大量并且真实的数据,这些数据可能带有噪声,其次发现的信息是无法实现预见的,而且这些信息要可理解、可应用。需要特别说明的是数据挖掘得到的结果并不是在任何情况下都成立的,需要具体问题具体分析

4、。8在人工智能领域,数据挖掘习惯上又被称为数据库中的知识发现,也有人把数据挖掘看作数据库中知识发现过程的一个基本步骤。知识的范围其实是很宽泛的,除了信息可以理解为知识以外,还有概念、规则、约束、模式和规律等也可以看作知识。通常大家把数据看作获取知识的来源,这个过程就像从大量矿石中提炼出金子一样。数据挖掘的目的不是要发现永恒的真理,也不是要发现新的数学物理公式或者自然科学定理,更不是发现那些针对某些事物下的结论。数据挖掘都是在一定的前提和条件下进行的,其得到的结果也是用来辅助决策,同时还要求尽量采用人们容易理解的方式表达得到的结果。数据挖掘将发现的知识划分为广义知识、关联知识、分类知识和

5、预测知识,其中应用最广泛的是分类知识。人们在数据分析、数据融合和决策支持的过程中越来越多的用到了数据挖掘,数据挖掘把数据的应用从原来简单的查询统计,提高到了对数据的智能分析,进而提供决策支持。3决策树算法决策树又称为判定树,是一个类似二叉树或多叉树的树型结构,其最上面的节点叫做根节点,是树中的包括根节点在内的所有内部节点代表数据集中的属性,内部节点下面的每个分支代表这个属性的一个值,每个叶节点则表示训练集中对象的某个类别,即对象所属类别的属性值。从根节点到叶节点的每一条路径就是一条分类规则。因此,可以很方便地将决策树转化为分类规则,决策树是一种非常直观而且简单易行的分类方法。8由数学模

6、型可以得到实现决策树的简要步骤,概括为:1)决策树以根节点开始。2)选择最有分类能力的属性作为决策树的当前节点。3)根据当前节点属性取值的不同,将训练集划分为若干子集。每个取值形成一个分枝,有几个取值就形成几个分枝。4)针对上一步得到的某个子集,重复进行先前步骤,递归得到这个子集对应的分支。当某个节点选择属性以后,不能在这个节点的子节点上选择该属性。5)当满足下列条件之一时就停止对训练集的划分:①当前节点的子集中,所有数据项都在同一个类中。②当前节点没有继续划分子集的测试属性。在时,采用少数服从多数原则,将当前节点变成叶节点,并以对象中个数最多的类别作为类别标记,同时也可以存放该节点的

7、类别分布。③如果某个分枝没有对象,则以对象的多数类创建一个叶节点。主要的决策树算法有ID3、C4.5、CART和SLIQ等算法,其中C4.5算法在数据挖掘中应用最为广泛。4数据挖掘在学员综合信息管理系统中的应用4.1确定数据对象和目标,收集数据以及数据预处理8本文将学员类型、成绩、奖惩等数据作为挖掘对象。通过这些数据建立分类模型找到哪些因素对学员综合素质评估结果是有影响的,同时分析这些因素对评估结果的重要程度是怎样的。本文主要用到学员基本信息数

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。