基于spark的极限学习机算法并行化研究

基于spark的极限学习机算法并行化研究

ID:34112481

大小:65.19 KB

页数:10页

时间:2019-03-03

基于spark的极限学习机算法并行化研究_第1页
基于spark的极限学习机算法并行化研究_第2页
基于spark的极限学习机算法并行化研究_第3页
基于spark的极限学习机算法并行化研究_第4页
基于spark的极限学习机算法并行化研究_第5页
资源描述:

《基于spark的极限学习机算法并行化研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于Spark的极限学习机算法并行化研究刘鹏王学奎黄宜华孟磊丁恩杰中国矿业大学物联网(感知矿山)研究中心矿山互联网应用技术国家地方联合工程实验室中国矿业大学信息与控制工程学院南京大学计算机系PASA大数据实验室摘要:极限学习机算法虽然训练速度较快,但包含了大量矩阵运算,因此其在面对大数据量时,处理效率依然缓慢。在充分研究Spark分布式数据集并行计算机制的基础上,设计了核心环节矩阵乘法的并行计算方案,并对基于Spark的极限学习机并行化算法进行了设计与实现。为方便性能比较,同时实现了基于HadoopMapReduce的极限学习机并行化算法。实验结果表

2、明,基于Spark的极限学习机并行化算法相比于HadoopMapReduce版本的运行时间明显缩短,而且若处理数据量越大,Spark在效率方面的优势就越明显。关键词:极限学习机;并行化;Spark;RDD;Iladoop;MapReduce;作者简介:刘鹏(1973-),男,博士,副教授,CCF会员,主要研究领域为大数据并行处理技术及其在矿山物联网中的应用;E-mail:1iupeng@cumt.edu.cn;作者简介:王学奎(1993-),男,硕士生,主要研究领域为并行化计算、深度学习;E-mail:15105218783@163.com;作者简介

3、:丁恩杰(1962-),男,博士,教授,主要研究领域为矿山云服务及矿山大数据处理技术等,E-mail:enjied@cumt.edu.cn(通信作者)。收稿日期:2016-10-11基金:国家重点研发计划:矿山安全生产物联网关键技术与装备研发(2017YFC0804400,2017YFC0804401)StudyofELMAlgorithmParallelizationBasedonSparkLIUPengWANGXue-kuiHUANGYi-huaMENGLeiDINGEn-jieInternetofThingsPerceptionMineRese

4、archCentre,ChinaUniversityofMiningandTechnology;PASABig-dataLaboratory,DepartmentofComputerScience,NanjingUniversity;Abstract:Extrcmclcarningmcchinc(ELM)hashightrainingspeed,butwithlotsofmatrixoperations,itremainspoorofficioncywhileappliedtomassiveamountofdata.Afterthoroughrese

5、archonparallelcomputationofSparkresilientdistributeddataset(RDD),weproposedandimplementedaparalleiizedalgorithmofELMbasedonSpark.Andforconvenienceofperformaneecomparison,Iladoop-MapReduce-basedversionwasalsoimplcmcnted.ExperimentalresuItsshowthatthetrainingefficiencyoftheSpark-

6、basedELMparallelizationalgorithmissignificantlyimprovedthantheHadoop-MapReduce-basedversion.Iftheamountofdataprocessedisgreater,theadvantageofSparkinefficiencyismoreobvious.Keyword:ELM;Parallelization;Spark;RDD;Hadoop;MapReduce;Received:2016-10-111引言为解决传统神经网络算法训练速度缓慢的问题,2006年黄广

7、斌提出了极限学习机算法ELM(ExtremelyLearningMachine)[1]。大量研究表明,ELM算法总体上明显提高了训练速度,在很多情况下可以提高成百上千倍,而且在速度提高的同吋,准确率及泛化性能也有不同程度的提高[1-3]。由于ELM中被处理的数据需要爭先加载至内存,以及算法中有大量的矩阵运算,因此在面对大规模训练数据时,ELM的处理效率急剧下降,面临着巨大挑战。2013年中科院何清£41首次提出了基于MapReduce[5~6]设计〈key,value)键值对来处理ELM并行计算问题。2014年浙江大学陈娇燕将ELM分成多个子模块,并

8、基于MapReduce集群对分布式数据块并行训练。但上述工作的核心即并行化工作都研究得不够深入,程序运行效率

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。