欢迎来到天天文库
浏览记录
ID:35058818
大小:2.40 MB
页数:72页
时间:2019-03-17
《基于spark的大规模rnnlm系统》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号TP393密级公开UDC004.7编号10299Z1308020硕士学位论文基于Spark的大规模RNNLM系统Large-ScaleRNNLMSystemBasedOnSpark指导教师蔡涛副教授作者姓名李克强申请学位级别全日制工程硕士专业名称计算机技术论文提交日期2016.4.15论文答辩日期2016.6.7学位授予单位和日期江苏大学年月答辩委员会主席评阅人江苏大学硕士学位论文独创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已注明引用的内容以外,本
2、论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:日期:年月日基于Spark的大规模RNNLM系统学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权江苏大学可以将本学位论文的全部内容或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位
3、论文。保密□,在年解密后适用本授权书。本学位论文属于不保密□。学位论文作者签名:指导教师签名:年月日年月日江苏大学硕士学位论文摘要自然语言处理作为人工智能中的重要问题,一直是研究与开发的热点;其中基于递归神经网络的语言模型(RNNLM)具有非常强大的功能和鲁棒性,但由于传统计算技术和计算系统的限制,难以构建大规模的RNNLM系统,制约了RNNLM的准确性等。本文在分析现有串行和基于GPU的RNNLM系统的基础上,针对影响RNNLM中计算量的因素,在Spark平台上,设计了面向大规模RNNLM的结构。改变了通过
4、提高矩阵计算速度提高RNNLM系统性能的方式,模拟生物神经网络的并行特性,设计了基于并行神经元的RNNLM,以逻辑神经元为单位,实现RNNLM的分布式并发,从而将庞大的矩阵运算转变为分布式逻辑神经元的一阶运算,极大的提高了RNNLM的效率,为构建大规模RNNLM奠定了基础。经过测试,利用Spark计算框架优化RNNLM系统,将NxM的矩阵拆分到各个节点中计算,每个神经元只需要计算某一行数据,将庞大的计算量迁移到计算节点中这会大大降低时间开销,系统计算速率提升将近20倍,将语料扩大之后仍然适用。接着分析了分布式
5、平台Spark和RNNLM中制约计算性能的因素,设计了基于参数合并的广播式传输策略、基于NVM的容错机制和面向分布式RNNLM的内存优化机制,从提高分布式RNNLM中参数通信效率和针对RNNLM提高Spark性能两方面进行了改进,系统计算速率提升7-15倍。最后在Spark平台上,实现了大规模分布式RNNLM的原型系统,分别使用微软语料和RNNLMToolkit语料,对传统的RNNLM系统和基于Spark的RNNLM系统进行了性能测试,测试结果表明基于Spark的RNNLM系统经过结构的优化后,打破了神经元个
6、数方面和大规模语料方面的瓶颈,经过测试,基于Spark的大规模RNNLM原型系统性能比传统的RNNLM系统计算速率提升10倍以上,并没有因为语料成倍扩大导致系统运行时间呈线性成倍上升,极大的提I基于Spark的大规模RNNLM系统升了RNNLM系统的可用性。关键词:递归神经网络;自然语言处理;分布式计算;SparkII江苏大学硕士学位论文AbstractNaturallanguageprocessingasanimportantissueinartificialintelligencewhichisthefo
7、cusofresearchanddevelopment;therecurrentneuralnetworklanguagemodel(RNNLM)ispowerfulandrobust,butbecauseofthelimitationsoftheconventionalcomputingtechnologyandcomputingsystemsitisdifficulttobuildalarge-scaleRNNLMsystem,whichrestrictstheveracityofRNNLM.Withth
8、eanalysisofexistingRNNLMsystemwhichisserialandbasedonGPU,wedesignedRNNLMstructureforbigdataintheSparkplatformtosolvethefactorsaboutthecalculationofthetraditionalRNNLMsystem.RNNLMchangedtoimprovesystemp
此文档下载收益归作者所有