体系结构16周习题课

体系结构16周习题课

ID:15279034

大小:199.00 KB

页数:6页

时间:2018-08-02

体系结构16周习题课_第1页
体系结构16周习题课_第2页
体系结构16周习题课_第3页
体系结构16周习题课_第4页
体系结构16周习题课_第5页
资源描述:

《体系结构16周习题课》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、11.设有一个15000条指令地程序在一台时钟频率为25MHz的流水处理机上执行。假设该指令流水线有5段,并且每个时钟周期发射一条指令。忽略由于指令相关造成的损失。(a)用该流水线执行这一程序,并用通过延迟时间与其相等的一个等效非流水线处理机执行同一程序,将两者加以比较,并计算其加速比。(b)该流水线处理机的效率和吞吐率是多少?解:(a)等效的非流水处理机执行一条指令需要的时间是5个时钟周期。按照加速比定义,应有(b)效率为(c)吞吐率为2.(15分)一动态多功能流水线由6个功能段组成,如下图:其中:s1、S4、S5、S6组成乘法流水线,S1、S2、S3、S

2、6组成加法流水线,各个功能段时间均为50ns。假定该流水线的输出结果可以直接返回流水线输入端,而且设置有足够的缓冲寄存器。若按照最快的方式用该流水线计算。(1)(8分)请画出其处理过程的时空图。(2)(7分)计算其实际吞吐率,加速比和效率。[答案](1):乘法操作用到的流水段有:S1、S4、S5、S6;加法操作用到的流水段有:S1、S2、S3、S6。以最快的方式处理的流水线时空图如图所示:(2):A部分所处理的是;B部分所处理的是;C部分所处理的是。整个处理过程共需22个时钟周期。而进行了14次不同的运算,所以其实际吞吐率为:这些运算串行处理所需要的时钟周期

3、为56个时钟周期,所以其加速比为:效率为: 3.(13分)如图所示,输入端为8个处理机,输出端为8个存储器,通过三级立方体互连网络连接,采用级控方式。其中所有交换开关均为二功能(控制信号为“0”时直通,为“1”时交换)。若级控信号为:①K0K1K2=100;②K0K1K2=110;③K0K1K2=111;请在表中填写出对应于8个处理机而实际连通的8个存储器的排列顺序。解: 输入排列输出排列(存贮器) (处理机)K0K1K2=100K0K1K2=110K0K1K2=111 0467 1576 2645 3754 4023 5132 6201 73104.请用块

4、结构语言Cobegin-Coend写出图4.3中所示嵌套并行算法优先关系图的程序。解:begin s0; Cobegin s1; begin s2; Cobegins3;s4;s5;s6;s7;Coend s8; end s9; Coend s10; end5.一台单处理机采用如下串行程序实现S=A1+A2+A3+A4+A5+A6+A7+A8各矩阵(均为n×n)的累加求和运算:A1=A1+A2 A3=A3+A4 A5=A5+A6 A7=A7+A8 A1=A1+A3 A5=A5+A7 A1=A1+A5 现用4台多处理机系统实现上述矩阵的求和运算。请画出任务优先

5、关系图,并用块结构语言Cobegin-Coend写出并行程序。解:根据所给条件,采用4台处理机时串行程序可做如下改造:S0传送数据S1A1=A1+A2S2A3=A3+A4S3A5=A5+A6S4A7=A7+A8S5传送数据S6A1=A1+A3S7A5=A5+A7S8传送数据S9A1=A1+A5由此可画出并行优先关系图如图5.5所示。并行程序如下:beginS0;CobeginS1;S2;S3;S4;CoendS5;CobeginS6;S7;CoendS8;S9;end6.(13分)设E为交换函数,S为均匀洗牌函数,B为蝶式函数,PM2I为移数函数,函数的自变

6、量是十进制数表示的处理机编号。现有32台处理机,其编号为0、1、2、……、31。 (1)分别计算下列互连函数: E2(12)S(8)B(9)PM2I+3(28)E0(S(4))S(E0(18)) (2)用E0和S构成均匀洗牌交换网(每步只能使用E0和S一次),网络直径是多少?从5号处理机发送数据到7号处理机,最短路径需要经过几步?列出经过的处理机编号。 解:(1)E2(12)=8S(8)=16B(9)=24PM2I+3(28)=4 E0(S(4))=E0(8)=9S(E0(18))=S(19)=7 (2)网络直径是9,最短路径需要经过6步。 00101E00

7、0101S01000E001001S10010E010011S00111 7.(13分)(1)画出2×2开关构成的16个输入端的Omega网络。 (2)结点11传送信息给结点5,同时结点7传送信息给结点9,画出完成这一寻径的开关设置。这种情况会出现阻塞吗? 解:(1)16个输入端的Omega网络如图8.5所示。 (2)寻径开关设置见图8.5所示,因此不会出现阻塞。 8.分布存储器的SIMD并行处理机,8个PE用PM2I移数网连接。计算,求最短执行时间。向量X分布存放在各个PE的局部存储器中,标量a存放在控制部件CU的存储器中,从内存读一个数据到寄存器需要10

8、ns,做一次乘法需要20ns,做一次加法需要15ns

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。