浅议数据挖掘技术在学生成绩研究中应用

浅议数据挖掘技术在学生成绩研究中应用

ID:6040448

大小:28.00 KB

页数:6页

时间:2017-12-31

浅议数据挖掘技术在学生成绩研究中应用_第1页
浅议数据挖掘技术在学生成绩研究中应用_第2页
浅议数据挖掘技术在学生成绩研究中应用_第3页
浅议数据挖掘技术在学生成绩研究中应用_第4页
浅议数据挖掘技术在学生成绩研究中应用_第5页
资源描述:

《浅议数据挖掘技术在学生成绩研究中应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、浅议数据挖掘技术在学生成绩研究中应用  摘要:利用数据挖掘中的关联规则能够挖掘出大量数据中项集之间有意义的相关联系。采用Apriori算法对黑龙江工程学院学生的课程成绩进行分析,进而发现课程之间的联系,为教务处进行日常教学管理提供帮助。Abstract:Theuseofdataminingassociationrulescanfindrelevantmeaningfulconnectionbetweenalargesetofdataitems.ThispaperusesApriorialgorithmtoanalysestudents’grddesinHeilong

2、jiangAcademyofEngineering,andthenfindsthelinkagebetweencurriculums,toprovidehelpforthedailyteachingmanagementofacademicaffairsoffice.关键词:数据挖掘;关联规则;成绩管理Keywords:datamining;associationrules;performancemanagement中图分类号:TP311.1文献标识码:A文章编号:1006-4311(2013)21-0233-020引言6任何课程之间在学习的过程中都存在一定的顺序和相

3、应的关联,课程之间的密切关系或影响程度与专业和研究方向有关。本文在分析学生的学习成绩时采用Apriori算法,在为教学管理者提供决策的同时也为学生的选课提供了支持。1基本原理某种事物发生的时候其他的事物也会相应的发生的一种联系即为数据关联,它是数均可中存在的一种重要的可以被发现的知识。为了挖掘隐藏在数据之间的关系通常进行关联分析。设I=i■,i■,…,i■是项的集合。设任务相关的数据D是数据库事务的集合,其中每个事务T是一个非空项集,使得且T?哿I。每一个事务都有一个标识符,称为TID。设A是一个项集,事务T包含A,当且仅当A?哿T。关联规则是形如A?圯B的蕴含式,

4、其中A?哿I,B?哿I,A≠?覫,B≠?覫,并且A∩B=?覫。规则A?圯B在事务集D中具有置信度c,其中c是D中包含A的事务同时也包含B的事务的百分比。这是条件概率P(B

5、A),即support(A?圯B)=P(A∪B),confidence(A?圯B)=P(B

6、A)。同时满足最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则成为强规则。为方便计算,用0%~100%之间的值,而不是0~1.0之间的值表示支持度和置信度。2算法设计Apriori算法采用两步骤挖掘,并且基于多次扫描数据库来执行。2.1从事务数据库D挖掘得到所有频繁项集6首先挖掘频

7、繁1-项集;然后采用递推的方式,挖掘频繁k-项集(k>1),具体做法是挖掘出候选频繁k-项集后,根据最小支持度min_sup筛选,得到频繁k-项集,最后合并所有的频繁k-项集。挖掘频繁项集的算法描述:L1=find_frequent_1-itemsets(D);//找出所有频繁1-项集for(k=2;Lk-1≠?覫;k++){Ck=apriori_gen(Lk-1,min_sup);//产生候选频繁k-项集foreach事务tinD{//扫描事务数据库Ct=subset(Ck,t);//Ct是候选集Ck中提取包含在事务t中的k-候选项集foreach候选c属于Ctc

8、.count++;//统计候选频繁k-项集的计数}Lk={c属于ck

9、c.count?叟min_sup};//满足最小支持度的频繁k-项集}ReturnL=所有的频繁集;//合并频繁k-项集(k>0)Apriori算法挖掘频繁项集有两个主要过程:第一个过程为算法描述6中的:Ck=apriori_gen(Lk-1,min_sup);生成候选频繁k-项集。候选频繁k-项集Ck是根据频繁k-1-项集Lk-1连接Lk-1产生的,然后再根据Apriori的反单调性质,剪掉Ck中有一个k-1子集不在Lk-1中的数据项集。Apdori的反单调性质指频繁项集的所有非空子集必定是频繁

10、的,或非频繁项集的所有超集必定是非频繁的。第二个过程为算法描述中的Ct=subset(Ck,t);Ct是候选集Ck提取包含在事务t中的k-候选项集。候选频繁k-项集Ck产生之后,需要扫描事务数据库D,来统计Ck的支持度计数,所以subset函数是Apriori算法最耗时的一个过程。为了使这一操作更加有效,候选频繁k-项集Ck被存储到一个可扩充的散列树(HashTree)中。2.2基于第一步挖掘得到的频繁项集,继续挖掘得到频繁关联规则这一步根据频繁项集挖掘得到所有的关联规则,再根据最小置信度(min_conf)得到频繁关联规则。挖掘频繁关联规则的思想描述:初始状态

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。