基于云计算环境考试数据挖掘算法探究

基于云计算环境考试数据挖掘算法探究

ID:5995507

大小:32.00 KB

页数:10页

时间:2017-12-30

基于云计算环境考试数据挖掘算法探究_第1页
基于云计算环境考试数据挖掘算法探究_第2页
基于云计算环境考试数据挖掘算法探究_第3页
基于云计算环境考试数据挖掘算法探究_第4页
基于云计算环境考试数据挖掘算法探究_第5页
资源描述:

《基于云计算环境考试数据挖掘算法探究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于云计算环境考试数据挖掘算法探究  【摘要】本文分析了当前网络考试系统数据挖掘现状,介绍了云计算和数据挖掘的相关概念,指出传统数据挖掘技术在当今考试系统海量数据情况下挖掘时系统响应速度慢,负载不均衡和节点效率低的不足,设计了基于Map/Reduce并行编程模型的Apriori算法,利用云计算环境下计算资源来支持该算法的并行执行,通过实例说明云计算化后的Apriori算法在对海量考试数据进行挖掘时能获得更高的挖掘效率。【关键词】云计算;关联规则;AprioriMap/Reduce1引言10随着我国开

2、放大学建立及网络学院的发展,高中起点升本科,专科起点升本科,高中起点升大专三个层次的多个不同专业吸引了更多的人选择参加远程教育完成学习,网络学习云平台上及网络考试系统中也就保存了大量数据,在这些数据中隐藏很多对远程教学有价值的信息,有助于教学管理人员及时分析学生学习情况,更好地整合网络学习平台上的教育资源。如果仅使用传统数据挖掘方法,就会由于数据量巨大而导致系统处理速度缓慢,频繁的输入输出会影响系统响应时间,节点效率不同也会出现挖掘效率不高的情况。为此在对网上考试系统所存储的海量数据信息进行挖掘时,

3、引入能够在云计算环境下运行的数据挖掘算法,利用云计算环境中分布的计算节点,来支持数据挖掘算法的并行执行,弥补传统数据挖掘算法的不足,能从海量的考试数据资源中找出有价值的数据信息。2云计算与数据挖掘相关概念2.1云计算下MAP/REDUCE并行编程模型介绍云计算的概念最先由Google埃里克·施密特在2006年首次提出,其基本原理是将大的海量数据的计算任务分割成小的微量的计算任务,将计算任务细分后由分布在网络上的计算节点通过并行计算实现,最后将细化的计算结果数据汇总,得到最后的计算结果。在当前的网络教

4、学平台中就已经开始引入云的概念,将优质的教学资源作为云,学习者只访问自己学习相关的资源而不用考虑该资源所在位置,学习结束后通过网上考试系统完成测试。MapReduce是Google发明的并行分布式编程模型,被广泛应用于云数据计算中,用MapReduce来处理的数据任务必须能分解成独立的小数据集,而且各个小数据集能够并行处理,通过Map阶段将待处理数据分割成小的独立数据块,分别让不同的空闲计算节点来进行计算,达到分布式运算的效果,再通过Reduce程序将计算结果汇总输出。2.2关联规则及Apriori

5、算法介绍10数据挖掘目前公认的定义是:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。关联规则由Agrawal等于1993年首先提出,就是要从当前数据库中挖掘出各个项集间存在的某种规则,形成关联规则的项目集必须是频繁项目集,也应满足最小支持度和最小可信度。对于云计算平台上的海量考试数据进行挖掘,主要目的之一就是希望能通过挖掘大量的考试信息发现试题之间隐藏的内在联系,这在功能上属于关联分析。例如,关联规则可以表示为“

6、答对了题目3的考生中有80%的人也答对了题目9”。从这些规则可找出试题中题目之间的关联性,帮助教师分析学生知识掌握情况以及分析题目之间的互相影响性,以便帮助提高教学质量。Apriori算法的基本思想是找出所有的频繁项集,这些频繁项集出现的频繁性要大于等于预先定义的最小支持度,由找出的这些频繁项集产生同时满足最小支持度和最小可信度的强关联规则。3云计算环境下Apriori算法的Map/Reduce模型化设计10要在云计算环境下应用Apriori算法,要将算法按照Map/Reduce的编程模型并行化设计

7、并执行,然后由主控程序控制算法应用云存储环境中的数据运行。主程序按照使用者指定的数据块大小将云存储中数据分成独立的N个数据块,并将这些数据块分发到云平台中各个空闲的计算节点去运行,在进行数据预处理后,Map进程对处理好的目标数据进行计算,得到局部的频繁候选项集,再由Reduce进程对Map过程产生的局部候选频繁项目集做归并处理,产生总体的全部候选项目集,然后按照给定的最小可信度和最小支持度找出全局的频繁候选项目集,得到有关的关联规则。云计算环境下的Apriori算法Map/Reduce化包括3个过程

8、,首先是数据准备过程;其次是Map函数过程找到各个独立数据块的局部频繁项集;最后由Reduce过程通过归并处理接收Map过程得到的局部频繁项集,从中找出全局频繁项集,得到所需要的强关联规则。Map/Reduce化后Apriori算法的执行步骤如下:(1)数据库中待处理数据首先要按照要求分割成相对独立的N个小数据块,并按照所需要求进行数据清理处理和筛选处理,得到处理后的N个候选数据项集。(2)由Master将N个候选数据项集分派给不同的工作节点,每个节点执行不同的Map

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。