基于id3算法在专业方向指导中的应用

基于id3算法在专业方向指导中的应用

ID:10967633

大小:52.00 KB

页数:3页

时间:2018-07-09

基于id3算法在专业方向指导中的应用_第1页
基于id3算法在专业方向指导中的应用_第2页
基于id3算法在专业方向指导中的应用_第3页
资源描述:

《基于id3算法在专业方向指导中的应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于ID3算法在专业方向指导中的应用【摘要】文章利用学院教务管理软件收集了大量的学生数据信息,采用数据挖掘技术中的ID3算法将这些信息转换成知识,指导教学研究,并辅助学生选择适合自己的专业方向。中国9/vie  【关键词】数据挖掘;决策树;ID3算法  一、前言  本研究采用数据挖掘分类技术,从教务管理系统存储的数据中发现有价值的信息,对“学生大一期间各门专业基础课”及相关信息的数据资源进行挖掘以获得辅助决策,分析基础课成绩和学生个人兴趣爱好之间的潜在关系,帮助管理者通过对学生学习成绩的分析和研究,了解和掌握学生的学习情况、需求、能力等,及时调整教学计划,对学生专业方向选择做

2、出预测性的指导。  二、算法及实现  ID3算法是由Quinlan于1986年提出的一种基于信息炳的决策树学习算法。他把C.E.Shannon的信息论引入到了决策树算法中,把信息熵作为选择测试属性的标准,对训练样本集进行分类,并构造决策树来预测如何由测试属性对整个样本空间进行划分。  (一)数据的收集和整理  本研究利用ID3算法以华南女子学院服装专业学生的大一期间的成绩为挖掘数据源,根据学生各科的学习成绩信息,剔除了成绩表中与专业发展方向无显著相关性的属性如体育等课程属性,选择7门具有代表性的专业基础课作为基础数据进行处理。  其次,对训练表中的每一列成绩属性的值进行离散化

3、处理。我们在进行数据预处理工作的时候,将成绩分成三个部分,用A类表示[80,100]之间的分数,用B类表示[70,79]之间的分数,用C类表示[0,69]之间的分数。  除了学习成绩之外,我们还需要考虑影响学生专业方向选择的其他因素。服装系的专业方向具体划分为三个方面:  制板与工艺方向、造型设计方向、市场营销方向。  学生在大一修完专业基础课后,自行选择专业方向。为了更好地了解学生选择专业方向的动机以及完成阶段性学习以及大学二年级工学结合的专业实践后对自己所选方向的满意度,我们设计了问卷调查:①学生的个人兴趣:A、手工制作;B、创意设计;C、人际交往;②选择专业方向时是否按

4、兴趣来选择:A、是;B、不确定;C、否;③经过一年的专业学习,觉得现在的专业方向是否合适自己:A、是;B、不确定;C、否(觉得自己更合适什么方向)。  经过上述工作之后,整个表就只包含了影响专业发展方向的关键因素的属性。然后再对数据进行数据清理工作。  在学生调查信息表中我们看到,有一些我们感兴趣的属性缺少属性值。这样的记录,我们予以删除。在�W生成绩表中,有些学生缺考、作弊或退学。这样他们的成绩也是无效的数据,因为无法根据他们的成绩得出分类结果,所以我们进行了删除。经过数据清理后,总记录数为186条。  通过数据收集、数据整理之后,我们实际可以使用的数据记录为182条。由于

5、在系统实现过程中我们还需要预留一部分数据进行数据分析准确度测试,因此,在放入训练数据集进行决策树模型生成训练的实际数据记录为146条。使用决策树ID3方法对于越大的数据库使用效果越好。由于本次数据挖掘使用的挖掘库中的数据记录存在有限性,使得对ID3方法的使用效果产生了影响。  (二)利用ID3算法构造学生成绩分析决策树  1.信息增益的计算  先我们先利用公式计算机出信息熵,参加数据挖掘的记录有146条。经过两年的专业学习后,认为自己更适合学习制板与工艺方向的有58人,认为自己更适合学习造型设计方向的有48人,觉得自己更适合市场营销方向的有32人,不确定方向的8人。  H(S

6、)=-  =-(58/146)Log2(58/146)-(32/146)Log2(32/146)-(48/146)Log2(48/146)-(8/146)Log2(8/146)=1.7663  下面计算信息增益值。  利用公式:信息增益值I(S/A)=H(S)-H(S/A)  其中H(S/A)=-得  经过整理后,参加数据挖掘的属性有9个,根据公式计算起信息增益为:  Gain(S,基础工艺)=H(S)-H(基础工艺)=0.0646比特  Gain(S,成衣工艺)=H(S))-H(成衣工艺)=0.1356比特  Gain(S,服装结构设计原理)=H(S)-H(服装结构设计原理

7、)=0.0932比特。  Gain(S,服装设计基础)=H(S)-H(服装设计基础)=0.1696比特。  Gain(S,款式效果图)=H(S)-H(款式效果图)=0.1696比特。  Gain(S,款式设计)=H(S))-H(款式设计)=0.3512比特。  Gain(S,市场营销)=H(S)-H(市场营销)=0.1116比特。  Gain(S,兴趣)=H(S)-H(兴趣)=0.7951比特。  由此可得Gain(S,兴趣)最大,即个人兴趣对分类最有帮助,所以选择兴趣对决策树的结构进行首次分区,产生4

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。