欢迎来到天天文库
浏览记录
ID:31294603
大小:265.45 KB
页数:13页
时间:2019-01-08
《《计算机系统结构》课程讲义教案第8章并行处理机》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、第八章并行处理机•两种并行性概念:同时性并行Simultaneity:两个或两个以上事件在同一时刻发生。并发性并行Concurrency:两个或两个以上事件在同一时间间隔内发生。•三条技术途径:资源垂复:通过垂复设置多个处理部件来提高速度。时间重叠:流水线资源共享:分时系统,分布式系统并行处理机采用同时性并行,资源重复技术。8.1并行处理机模型8.2并行处理机的基本结构8・3并行处理机实例8.4并行处理机算法举例8.1并行处理机模型•并行处理机的定义:多个PU按照一定方式互连,在同一个CU控制下,对各自的数据完成同一条指令规定的操作。从CU看,指令是串行执行的,从PU看,数据是并行处理
2、的。并行处理机也称为阵列处理机。按照佛林分类法,它属于STMD计算机。•并行处理机的应用领域并行处理机主要用于高速向量或矩阵运算中。H.J.Siegel提出的并行处理机模型如图。并行处理机的操作模型并行处理机的操作模型可用五元组来表示:M=(N,C,I,M,R)其中:N为PE个数。如IlliacIV有64个PE,CM-2(ConnectionMachine)有65536个PE等。C为由控制部件CU直接执行的指令集,包括标量指令和程序控制指令。I为所有PE并行执行的指令集,包括算术运算、逻辑运算、数据寻径、屏蔽以及其它由每个活动的PE对它的数据所执行的局部操作。M为屏蔽指令集,每种屏蔽将
3、PE划分为允许操作和禁止操作两个子集。R是数据寻径功能集,说明互连网络中PE间通信所需要的各种设置模式。•可以用五元组描述一台具体的并行处理机,如MasParMP-1的操作特性如下:N=1024至16384。实际PE数口与机器配置有关。CU执行标量指令,译码后的向量指令广播到PE阵列,并控制PE间的通信。每个PE都是基于Load/store结构的RISC处理机,PE从CU接受指令,能执行整数运算和标准浮点运算。屏蔽指令设在每个PE中,并由CU连续监控。它能在运行时动态地使每个PE处于置位或复位状态。有一个X-Net网格网络和一个全局多级交叉开关寻径器,以实现CU和PE之间、X-Net的
4、8个近邻之间和全局寻经器的通信。MP-1的每个PE装有1位逻辑单元、4位整数ALU、64位尾数部件和16位指数部件。所以,MP-1是中粒度并行处理机。由于每个PE比较简单,故可将几个PE做在一个芯片上。MP-1的每个芯片有32个PE,每个PE有40个32位寄存器。32个PE用X-Net网络互相连接,这是一种对角线双级链路扩展的4-邻网。CM-2在一个芯片上将16个PE连成网格网络,每个16-PE网的芯片安置在12维超立方体的顶角上。这样,16X212=216=65536PE组成了整个SIMD阵列。DAP610则在一个芯片上实现了一个64-PE的网格网络,再由这些芯片上小网格互相连接组成
5、一个大网格(64X64)。目前,Fortran90.C的各种修订文本、Lisp和其它同步程序设计语言都已研制成功,可为S1MD机编制程序用。典型并行处理机系统型号SIMD计算机系统结构和性能语言、编译器和软件支持MasPar计算机公司MPT系列1024〜16384个PE,26GIPS或1.3GflopSo每个PE带16KB本地存储器,X-Net网格加一个多级交叉开关互连网。Fortran77>MasParFortran(MPF)和MasPar并行应用语言;X-窗口UNIX/OS,符号调试程序,可视化和动画片制作器。ThinkingMachines公司CM-265536个PE排成10维超
6、立方体,每个PE可有1M位存储器,32个PE共享FPU选件,峰值速度28Gflops和持续速度5.6Gflopso由VAX,Sun或Symbolics360主机驱动,PARIS支持的Lisp编译器、Fortran90>C*和*LispoActiveMemoryTechnologyDAP600系列1K位/PE方形网格互连成4096PE的细粒、位片S1MD阵列,止交4-邻位链接,20GIPS和560Mflops峰值性能。由主机VAX/VMS或UNIXFortran-plus或DAPJLAPAL提供,主机的Fortran77或C。与Fortran90标准有关的Fortran-pluso8.2
7、并行处理机的基本结构并行处理机有两种典型结构:分布存储器并行处理机和共享存储器并行处理机8.2.1分布存储器并行处理机&2.2共享存储器并行处理机&2.3并行处理机的特点8.2.1分布存储器并行处理机目前的大部分并行处理机是基丁•分布式存储器模型的系统。分布存储器的并行处理机比较容易构成MPP(MassivelyParalleiProcessor)可以达到几十万个PE。必须依靠并行算法来提高PE的利用率。应用领域很有限。CU是控制部件,执行标量
此文档下载收益归作者所有