欢迎来到天天文库
浏览记录
ID:20879323
大小:695.00 KB
页数:46页
时间:2018-10-17
《第6章 单指令流多数据流计算机》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、计算机系统结构(第二版)目录第6章单指令流多数据流计算机6.1单指令流多数据流计算机的基本结构与特点6.2分布式存储器SIMD计算机实例分析6.3集中式共享存储器SIMD计算机实例分析6.4阵列处理机的算法及性能分析第6章单指令流多数据流计算机6.1单指令流多数据流计算机的基本结构与特点单指令流多数据流(SIMD)计算机的关键特征是它的并行处理机。它的并行处理机是由单一控制部件控制多个处理单元同时进行运算操作,多个处理单元通常通过互连网络连接成阵列结构,故也称为阵列处理机。并行处理机的所有处理单元同时执行从控制部件广播来的同一条指令,但指令使用不同的数据,因此,并行处理机是指令
2、操作级并行的单指令流多数据流处理机。6.1.1单指令流多数据流计算机的两种基本结构根据存储器的组织方式不同,单指令流多数据流计算机的基本结构分为两种:集中式共享存储器型分布式存储器型1.分布式存储器SIMD计算机基本结构并行处理机的每个处理单元都有自己的局部存储器,存放可直接访问的数据。所有的处理单元通过互连网络互联。阵列控制部件CU是一台功能专用的处理机,它执行程序流控制指令和程序中的标量运算。管理处理机SC运行操作系统,管理系统资源。图6.1分布式存储器的SIMD计算机基本结构2.集中式共享存储器SIMD计算机基本结构并行处理机的所有处理单元共享由个存储体组成的并行存储器,处
3、理单元与存储体之间通过互连网络互连。CU和SC的功能与采用分布式存储器构型的SIMD计算机没有什么差别。图6.2集中式共享存储器的SIMD计算机基本结构6.1.2单指令流多数据流计算机的主要特点SIMD的效率取决于计算程序向量化的程度。SIMD计算机依靠的并行措施是资源重复。SIMD计算机的互连网络决定了SIMD计算机能适应的算法类别,SIMD计算机的实际有效速度取决于另外两个因素。一是标量运算速度,二是编译过程的时间开销。SIMD计算机是根据功能专用化的原则组成的一种异构型多计算机系统。6.2分布式存储器SIMD计算机实例分析两种典型的SIMD计算机采用分布式存储器结构的并行处
4、理机的ILLIACⅣ计算机。采用集中式共享存储器结构的并行处理机的BSP计算机。1.ILLIACⅣ阵列ILLIACⅣ系统由3种类型处理机组成的一个异构多处理机系统。一是专门用于数组运算的处理单元阵列;二是阵列控制器,它既是处理单元阵列的控制部分,又是一台相对独立的小型标量处理机;三是一台标准的BurroughsB6700计算机,由它担负ILLIACⅣ输入输出系统和操作系统管理功能。图6.3ILLIACⅣ系统框图1.BSP计算机它由系统管理计算机B7700/B7800和BSP处理机两大部分组成,前者可视为后者的前端机。系统管理机负责BSP程序编译、与远程终端及网络的数据通信、外围设
5、备管理等,大多数BSP作业调度和操作系统活动也是在系统管理机上完成的。BSP处理机又可分为3部分,一是并行处理机,二是控制处理机,三是容量为4~64M字的文件存储器。6.3集中式共享存储器SIMD计算机实例图6.6BSP计算机系统框图操作系统和维护信息文件存储器CCD4~64M字文件存储器控制器文件存储器系统指令/控制存储器256K字控制维护单元标量处理单元并行处理机控制器控制处理机并行存储器0.5~8M字入口和出口对准网络16个算术单元并行处理机100M字/s100M字/s12.5M字/s系统管理机B7700/B7800程序和数据250K字/s●●系统管理机文件存储器控制处理机
6、(指令存储器,标量运算器)17个存储体16算术单元BSP科学处理机系统组成为了说明BSP并行存储器的地址变换和无冲突访问,下面先看一个较简单的例子。设并行存储器的存储体数m=7(质数),运算单元数n=6。若有一个45的数组。a00a01a02a03a04a10a11a12a13a14a20a21a22a23a24a30a31a32a33a34BSP的地址映象关系为:先将二维数组按列或者按行的顺序变换为一维数组,以形成一个一维线性地址空间,地址用a表示。然后将地址a变换成并行存储器地址(j,i),其中j是存储体体号,i是体内地址:j=amodmi=[a/n]下整存储体数m为一质数
7、,n为无冲突访问的最大存储体数。3.BSP的数据流水线结构BSP的16个AE组成的算术单元阵列、17个存储体组成的并行存储器和2套互连网络(对准网络)形成了一条5级数据流水线,使连续几条向量指令能在时间上重叠起来执行。①由17个存储器输出端口并行读出16个操作数。②经对准网络NWl将16个操作数重排列成16个算术单元需要的次序。③将排列好的16个操作数送到16个算术单元完成操作。④所得的16个结果经对准网络NW2重新排列成在17个存储体中存储所需要的次序。⑤写入并行存储器。存储器
此文档下载收益归作者所有