一种关于mpi和mapreduce分布式向量计算框架的分析和实现

一种关于mpi和mapreduce分布式向量计算框架的分析和实现

ID:32291795

大小:8.00 MB

页数:74页

时间:2019-02-02

一种关于mpi和mapreduce分布式向量计算框架的分析和实现_第1页
一种关于mpi和mapreduce分布式向量计算框架的分析和实现_第2页
一种关于mpi和mapreduce分布式向量计算框架的分析和实现_第3页
一种关于mpi和mapreduce分布式向量计算框架的分析和实现_第4页
一种关于mpi和mapreduce分布式向量计算框架的分析和实现_第5页
资源描述:

《一种关于mpi和mapreduce分布式向量计算框架的分析和实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、浙江大学硕士学位论文摘要机器学习是近20年来兴起的多领域交叉学科,涉及多门学科,诸如概率论、统计学、逼近论、凸分析等等。机器学习算法目前已经有了广泛的应用,例如数据挖掘、自然语言处理、搜索引擎等等。当前各种机器学习算法已经有开源的单机实现,但是随着互联网的高速发展,用户数据量急剧增加,单机实现已经不能满足工业界的需求,为了满足算法的高性能实现,开发人员需要利用MPI,Hadoop/MapReduce等计算框架开发并行程序。MPI效率高,编程灵活,扩展性好,适合高性能计算,然而也存在一些缺点:MPI接口众多,学习成本高;当前使用MPI实现高性能程序时,往往需要考虑数据

2、切分、网络通信等问题,缺少类似MapReduce的计算模型,增加了程序员的负担;算法实现专有化不利用代码复用,缺少统一抽象的分布式数据结构;程序容错性较差。针对以上缺点,本论文综述了MPI容错方案和MapReduce的应用与改进,结合抽象向量接口设计,提出了一种MPI下基于向量和MapReduce的分布式计算框架。该框架将机器学习算法中的矩阵操作抽象成为分布式向量的操作,同时结合异步收发提高网络传输效率,尽可能重叠CPU计算和网络收发。在此基础之上,引入checkpoint机制,增加多轮迭代算法的在MPI环境中的容错性。为了验证程序的效率和正确性,选择了PageRa

3、nk算法进行对比实验。实验证明,本论文提出框架适合并且能有有效解决符合MapReduce模型的机器学习算法的分布式实现问题。关键词:分布式计算框架机器学习向量MPIMapReduce浙江大学硕士学位论文Abs仃actAbstractMachinelearningisailemergingsubjectintherecent20years,involvingmanyfieldssuchasprobabilitytheory,statistics,approximationtheory,convexanalysis.Machinelearningalgorithmsha

4、vebeenwidelyindatamining,naturallanguageprocessing,searchengine,andSOon.Infacingwiththehighspeeddevelopmentofinternetcouplingwithexplosionofuserdata,theimplementationofmanyalgorithmsonasinglecomputercannotsatisfytheindustry.Tosolvetheproblem,theresearchersturntothedistributedcomputatio

5、nplatformincludingMPI,Hadoop/MapReduce。MPIprovidesscalableandflexibleinterfacewhilepromiseshighefficiency.MPIalsohassomeshortcomings:highlearningcostduetolargenumberofinterface;theuserneedtoconsiderhowtosplitthedataandnetworkcommunication;lackofanabstractprogramingmodellikeMapReduce,le

6、adingtoincreasingtheburdenoftheprogrammer;theimplementationthroughMPIAPIisalgorithmspecific,SOthecodeisnotveryreusable,andlackofabstractdistributeddatastructure;MPIisnotfault.tolerant.Tosolvetheaboveproblems,thisthesisreviewsfault-tolerantsolutionsonMPI,applianceandimprovementofMapRedu

7、cemodel.Aftercomprehensiveanalysis,weproposeadistributedcomputationframeworkbasedonvectorabstractionandMapReduceunderMPIenvironment.Thenewframeworktreatsmatrixmanipulationinmachinelearningalgorithmasoperationsondistributedvectors.Asynchronouscommunicationisusedtoimprovetheefficiencyo

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。