超大规模数据挖掘架构及方法论

超大规模数据挖掘架构及方法论

ID:15359113

大小:1.18 MB

页数:26页

时间:2018-08-02

超大规模数据挖掘架构及方法论_第1页
超大规模数据挖掘架构及方法论_第2页
超大规模数据挖掘架构及方法论_第3页
超大规模数据挖掘架构及方法论_第4页
超大规模数据挖掘架构及方法论_第5页
资源描述:

《超大规模数据挖掘架构及方法论》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、超大规模数据挖掘架构及方法论更深入地洞察更科学地决策Copyright©2007,Geni-sageTechnologyCO.,LTD.AllrightsreservedFurtherInsight,BetterDecisions议题超大规模数据挖掘架构主流并行计算架构数据挖掘并行特点GDM并行架构数据分析方法论2Copyright©2007,Geni-sageTechnologyCO.,LTD.AllrightsreservedFurtherInsight,BetterDecisions

2、议题超大规模数据挖掘架构主流并行计算架构数据挖掘并行特点GDM并行架构数据分析方法论3Copyright©2007,Geni-sageTechnologyCO.,LTD.AllrightsreservedFurtherInsight,BetterDecisionsMPI(1)设计一套应用程序接口,使编程者不需要面对编译器、操作系统执行包。(2)允许高效通信:避免内存到内存的拷贝(memory-to-memorycopying),允许overlap计算设计目标和通信,任务分解到各线程。(3)

3、支持异构环境。(4)采取可靠的通信接口:编程者不用应对通信失败。(5)支持多用户平台,而不需要明显的程序修改。(6)线程安全。缺点:串行代码cpu、内存资源重复占用;4Copyright©2007,Geni-sageTechnologyCO.,LTD.AllrightsreservedFurtherInsight,BetterDecisionsMPI基本函数MPI_INIT:启动MPI环境MPI_COMM_SIZE:确定进程数MPI_COMM_RANK:确定自己的进程标识符MPI_SEND:发送一

4、条消息MPI_RECV:接收一条消息MPI_FINALIZE:结束MPI环境5Copyright©2007,Geni-sageTechnologyCO.,LTD.AllrightsreservedFurtherInsight,BetterDecisions点对点通信阻塞发送MPI_Send(buffer,count,type,dest,tag,comm)非阻塞发送MPI_Isend(buffer,count,type,dest,tag,comm,request)4种消息传递函数阻塞接收MPI_Re

5、cv(buffer,count,type,source,tag,comm,status)非阻塞接收MPI_Irecv(buffer,count,type,source,tag,comm,request)标准通信模式(MPI_SEND)缓存通信模式(MPI_BSEND)4种通信模式同步通信模式(MPI_SSEND)就绪通信模式(MPI_RSEND)Copyright©2007,Geni-sageTechnologyCO.,LTD.AllrightsreservedFurtherInsight,Bett

6、erDecisions集合通信通信:MPI_Bcast(广播)MPI_Scatter(发布)MPI_Gather(搜集)同步:MPI_Barrier规约:MPI_ReduceCopyright©2007,Geni-sageTechnologyCO.,LTD.AllrightsreservedFurtherInsight,BetterDecisionsOpenMPI(1)提供一个标准的共享内存并行架构。(2)建立一个简单的标示符集合,使得通过3、4个标示符就可以将程序并行化。设计目标(3

7、)能够同时提供粗粒度和细粒度并行。(4)不需要编程人员学习消息通信包和撰写底层消息通信代码。(1)基于OpenMPI思想编写并行程序;(2)利用OpenMPI编译器执行并行程序,生成多线编程及程程序(包含线程、共享变量、子线程变量、执行流程barriers等);(3)在多核计算机上执行编译后的并行程序。支持for循环和sections并行缺点:(1)需要预编译并行程序,流程复杂;(2)编译后的并行代码可读性较差。8Copyright©2007,Geni-sageTechnologyCO.,LTD.A

8、llrightsreservedFurtherInsight,BetterDecisions其它并行计算思想或平台缺点Map-Reduce(Fork/Join)需要对程序进行map、reduce设计,对串行代码调整较大;由于是分布式并行,因此仅适合比较容易map、reduce设计的场景,适用算法有限。Terracotta集群平台虚拟机层面并行,基本无需调整串行代码,但调度和负载均衡机制考虑较少。9Copyright©2007,Geni-sageTechnology

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。