欢迎来到天天文库
浏览记录
ID:21954257
大小:5.03 MB
页数:36页
时间:2018-10-25
《并行计算重点》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第一章:并行计算概述3域分解3流水线4第二章:计算机硬件环境4SMP(SymmetricMultiprocessor)4Cluster(集群)4并行计算机访存模型5UMA(UniformMemoryAccess)均匀存储访问。5NORMA(No-RemoteMemoryAccess)非远程存储访问。5GPU在显卡中的地位相当于计算机中的CPU6多核技术概述7第三章:内存系统,性能评测7内存系统对性能的影响7延迟和带宽的区别7使用高速缓存改善延迟8缓存效果示例8缓存效果示例8内存带宽的影响8内存带宽的影响示例8并行计算性能评测:CPU性能指标9第四
2、章:多线程18线程与进程的区别19区别一:调度19区别二:并发性19区别三:拥有资源20区别四:系统开销20线程的生命周期21线程的同步21竞争条件21同步方法22Pthread多线程23第五章:JAVA多线程编程(不做重点)23知道编译制导语句的样子,作用和定义!23第六章:OpenMP24OpenMP概述24编译制导语句24第七章:集群技术概述25集群技术基础25定义25体系结构26集群的分类26MPI27第八章27MPI概述27MPI(Messagepassinginterface)28MPI的六个基本接口28MPI程序的开始与结束29第一
3、章:并行计算概述域分解§ 首先,确定数据如何划分到各个处理器§ 然后,确定每个处理器所需要做的事情§ 示例:求数组中的最大值流水线(不考)第二章:计算机硬件环境SMP(SymmetricMultiprocessor)§ 采用商品化的处理器,这些处理器通过总线或交叉开关连接到共享存储器。§ 每个处理器可等同地访问共享存储器、I/O设备和操作系统服务§ 扩展性有限§ 曙光1号,IBMRS/6000。。。Cluster(集群)§ 分布式存储,MIMD,工作站+商用互连网络,每个节点是一个完整的计算机,有自己的磁盘和操作系统,而MPP中只有微内核§ 优点
4、:– 投资风险小– 系统结构灵活– 性能/价格比高– 能充分利用分散的计算资源– 可扩展性好§ 问题– 通信性能– 并行编程环境并行计算机访存模型UMA(UniformMemoryAccess)均匀存储访问。– 物理存储器被所有处理器均匀共享;– 所有处理器访问任何存储字取相同的时间;– 每台处理器可带私有高速缓存;– 外围设备也可以一定形式共享。NORMA(No-RemoteMemoryAccess)非远程存储访问。– 所有存储器私有;– 节点间通过消息传递进行数据交换。GPU在显卡中的地位相当于计算机中的CPU– GPU使显卡减少了对CPU的
5、依赖,并进行部分原本CPU的工作– 当前GPU已经不再局限于3D图形处理,GPU通用计算技术发展已经引起业界的关注,事实也证明在浮点运算、并行计算等部分计算方面,GPU可以提供数十倍乃至于上百倍于CPU的性能多核技术概述多内核是指在一枚处理器中集成两个或多个完整的计算引擎(内核)。多核技术的开发源于工程师们认识到,仅提高单核芯片的速度会产生过多热量且无法带来相应的性能改善,先前的处理器产品就是如此。他们认识到,在先前产品中以那种速率,处理器产生的热量很快会超过太阳表面。即便是没有热量问题,其性价比也令人难以接受,速度稍快的处理器价格要高很多。第三
6、章:内存系统,性能评测内存系统对性能的影响 对于很多应用而言,瓶颈在于内存系统,而不是CPU 内存系统的性能包括两个方面:延迟和带宽– 延迟:处理器向内存发起访问直至获取数据所需要的时间– 带宽:内存系统向处理器传输数据的速率延迟和带宽的区别§ 理解延迟与带宽的区别非常重要。考虑消防龙头的情形。如果打开消防龙头后2秒水才从消防水管的尽头流出,那么这个系统的延迟就是2秒。当水开始流出后,如果水管1秒钟能流出5加仑的水,那么这个水管的“带宽”就是5加仑/秒。如果想立刻扑灭火灾,那么更重要是减少延迟的时间。如果是希望扑灭更大的火,那么需要更高的带宽。使
7、用高速缓存改善延迟§ 高速缓存是处理器与DRAM之间的更小但更快的内存单元。§ 这种内存是低延迟高带宽的存储器。§ 如果某块数据被重复使用,高速缓存就能减少内存系统的有效延迟§ 由高速缓存提供的数据份额称为高速缓存命中率(hitratio)§ 高速缓存命中率严重影响内存受限程序的性能。缓存效果示例§ 继续考虑前一示例。在其中加入一个大小为32KB,延迟时间为1纳秒(或1个周期)的高速缓存。 使用此系统来计算矩阵乘法,两个矩阵A和B的维数为32×32。之所以选择这个大小,是为了能够将A、B两个矩阵以及结果矩阵都放入高速缓存中。缓存效果示例结果如下:
8、 将两个矩阵取到高速缓存中等同于取2K个字,需要大约200µs。 两个n×n的矩阵乘需要2n3步计算。在本例中,需要64K步计算,如果每
此文档下载收益归作者所有