欢迎来到天天文库
浏览记录
ID:35057678
大小:4.06 MB
页数:77页
时间:2019-03-17
《基于mapreduce的高校大数据分析挖掘》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、■\一?'■三—一—二'’,:、一一‘-一一入.广、:二、-一t''-;,_^—叫'4————’-二,1一二.1单位代码0476一!—'。一一一‘--一一1_.308180555r学号'■'*;/y>’':-TP分类号391产滾./'i—,-:..為V名护’"'.7节广..鄉:.:巧.丫巧;細钟或种捉尖#苗;查硕:t学位论支WJ?一一'二三I'.I..-^*,.:、-基于MaReduce的离校大数据分
2、巧挖揺p.-*?,'片,..'''…'■■■.VV;;../yV■/,?一'*'.一'i—乂‘一.、^二堯為f.护.学科、专业:计費巧软件与理论1,?斩究方巧:云计實、大數据每,;?巧请学位类别;理学硕±.'.牢请人:司雅楠K扣'私、-气皆?指导教擠:青宏卿教授记:三’''八./>V!'户'-!'、\J1;’'-户支''豁V:.皆'.,、—*:二0六年五月.:*,.:、|.>''-..乂■谋槪‘■、苗姑严-V‘,V公
3、'、、'线八爾."''■-'■'、.'V.、、h:屯、;、私■'-'—'''O‘'^:'';_>.'令1:、lV'..V独创性声明本人郑重声明:所呈交的学位论文是我个人化导师指导下进行的研究工作化取得的研究成果。尽我所知,除了文中特别加标注巧致谢的地方外,论文中不包含其他人己经发表或撰写的研究成果,也不包含为获得河南师范大学或其他教育机构的学位或证书一所使用过的材料。与我同工作的同志对本硏究所做的任何贡献均己巧论文中作了明确的说明并表示了谢意。签名:心;司雜脯曰期关于论文使用授枚的说明
4、目J:本人完全了解河南师范大学有关保留、使用学位论文的规定,|有枚保留并向国家有关部口或机构送交论文的复印件和磕盘,允许论文被查關和借阅。本人授权河南师1范大学可将学位论文的全部或部分内容编入有关数据库进行检索,可^1采巧影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授巧书)签名;;:导师签名鬥期COLLEGEBIGDATAANALYSISANDMININGBASEDONMAPREDUCEADissertationSubmittedtotheGraduateSchoolofHenanNormalUniversityinP
5、artialFulfillmentoftheRequirementsfortheDegreeofMasterofScienceBySiYananSupervisor:Prof.GaoHongqingMay,2016摘要校园网建设已经为高校的教学、科研和管理提供了先进的综合信息化环境。构建于校园网之上的数字校园也不断地完善,高校逐步实现了从环境、资源到应用的全面数字化,通过对这些数据进行集成与整合,达到科学规范的管理校园数据的目的。以校园网和数字校园为基础,并且运用云计算、物联网和大数据技术构建的智慧校园,旨在给予学生更智能的学习和生活环境。在数字化和智能化的过程中学校各
6、类应用系统所产生的数据日益增长,已初步形成了校园大数据环境。高校大数据中蕴含了丰富的信息,需要使用新的数据存储和分析工具对海量的高校数据进行存储和分析,并从中获得知识。为此,本文研究了数据挖掘相关算法在高校数据中的应用,为构建智慧校园提供合理的技术方法。本文首先采用主流的大数据处理平台Hadoop2.0对校园大数据的存储技术及方法进行分析,Hadoop2.0可有效地克服文件系统的扩展性差、资源利用率低和计算框架单一的缺陷;然后针对Apriori算法存在的耗时高、效率低的问题,提出基于MapRduce的最小支持度阈值算法,在学生成绩模块中验证改进算法的有效性;其次针对决策
7、树C4.5存在碎片过多、过度拟合的问题,提出基于MapReduce的C4.5交叉分块算法,在学生助学金分类模块中验证改进算法的可行性;最后,从不同的评价标准分析验证所提算法的合理性。实验结果表明了本文提出的基于MapReduce的高校大数据挖掘方法的有效性,为高校大数据挖掘提供了新的研究思路,也为智慧校园的构建提供了技术参考。关键词:大数据,Hadoop2.0,Apriori,MapReduce,C4.5IABSTRACTTheconstructionofcollegenetworkhasprovidedadvancedinformati
此文档下载收益归作者所有