欢迎来到天天文库
浏览记录
ID:10650326
大小:50.00 KB
页数:3页
时间:2018-07-07
《基于spark的智慧校园数据挖掘研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于Spark的智慧校园数据挖掘研究摘要:本文首先对智慧校园数据挖掘的意义进行研究和分析,提出了基于Spark技术的智慧校园数据挖掘平台,将数据挖掘技术与Spark计算框架相结合,该平台采用HDFS作为数据存储,上层的Spark平台作为智慧校园数据挖掘算法的运行环境。针对与学生相关的数据挖掘,构建了学生分析子系�y。中国8/vie 关键词:Spark;数据挖掘;智慧校园 中图分类号:TP391 文献标志码:A :2095-2163(2016)06-0106-02 1智慧校园数据挖掘的意义 随着云计算、大数据、物联网等前沿科技的迅猛发展,智慧校园的建设已经成为
2、学校信息化大幅推进的必然趋势和潮流标志。根据教育部制定的《教育信息化十年发展规划(2011-2020)》,国内许多院校的智慧校园的建设已然斩获了初步成效。智慧校园实现了学生、教师、科研、教务、后勤、图书等信息的存储、集成和共享,因而产生了大量的结构化和非结构化数据。时下,数据挖掘技术则在医学、商业、电信等领域得到了广泛应用。本次研究即拟将利用数据挖掘技术对校园大数据进行整合和分析,从而获取更多有用的数据信息,如此就能够为院校的校园管理、教学运作和公众事项提供全面优势服务\[1\]。数据挖掘对校园大数据的重要性可完整体现在如下方面: 1)智能分析。数据挖掘平台能够充分地
3、集成院校的各个子系统,能够分析学生的学习状况、食宿消费、图书借阅等行为,还能够分析教师的授课、科研等业务数据。例如:通过校园一卡通的消费记录分析学生的消费习惯、消费水平,为学校助学金政策的制定实施提供有效的数据支持。通过关联规则分析教务管理系统中教师的教学工作量与教师的科研进展的关系。 2)智能预测与预警。学生在校内的活动范围主要集中在宿舍、图书馆、餐厅、教学楼以及操场。通过数据采集获取的出勤记录、图书借阅记录可以预测学生的学习状况,对缺勤次数较多的学生发出提示预警。 3)智能决策。校园数据挖掘平台通过整合各类校园基础数据,从海量数据中挖掘出蕴含其中的有价值信息,为
4、校园的决策者提供科学实际的管理依据,同时也为优化学校资源、增进校园展示效果提供了切实可行的新途径。 [BT4]2基于Spark的智慧校园数据挖掘平台的搭建 [BT5]2.1Spark技术 2009年,加州大学伯克利分校AMP实验室开发了通用分布式内存计算Spark框架\[2\]。Spark可以快速迭代开发,形成了自己的生态系统,其计算性能远远高于Hadoop。目前,许多数据挖掘算法已经逐步从Hadoop平台迁移到Spark平台中。Spark的核心概念是弹性分布式存储RDD(ResiliDistributedDatasets,RDD)。具体来说,RDD是一组只读的数
5、据集。每个RDD都包含一组RDD分区、关于父RDD的一组依赖,父DRR上可以执行的操作以及RDD的分区模式。Spark包含转换和动作两种类型的操作算子。转换类型的算子有union、Map、filter等算子,动作类型的算子有top、count等算子。 作为一种基于内存的计算框架,Spark主要包含SparkSQL、SparkString、SparkGraphX、SparkMLlib四种组件\[3-4\]。其中,SparkSQL可以读取HDFS文件系统上的文件并进行分布式数据查询操作,SparkString可以将流式数据转换成RDD,SparkGraphX则可以解析运行
6、图计算,而SparkMLlib将可以设计和实现机器学习算法。 [BT5]2.2平台整体架构 智慧校园数据挖掘平台的架构涉及3个层次,可分别描述为:数据存储层、核心业务层、展示层。架构平台示意如图1所示。在此,即针对各组建层次的功能实现可给出如下阐释概述。 1)数据存储层。是平台的最底层,为上层提供数据源。主要用来存储学生、教师、行政等校园大数据。数据则按实时数据和历史数据分类存储在分布式文件系统HDFS上。 2)核心业务层。处于平台中间层,设计展现的业务逻辑从根本上可分为2部分。第一部分是数据预处理模块,其中包括了数据的清洗和转换;第二部分是数据挖掘模块,运用M
7、Llib框架来协同实现校园大数据的分类、聚类、关联规则等数据挖掘算法。 3)展示层。是平台与用户信息交互的窗口,通过建立一个eans算法进行聚类分析,以得到基于消费数据的学生是否贫困的类别,进而建立学生消费行为统计模型。 [BT5]3.3数据展示模块 数据展示模块的主要任务是将数据分析后的结果以图表等形式向用户提供结果或效果展示。校园各部门的管理人员可以根据分析结果展开深层的业务分析,如学习预警、消费预警等。该模块通过RESTAPI与数据分析模块进行交互,采用JSP+JavaScript+jQuery来支持实现。jQuery图表插件
此文档下载收益归作者所有