欢迎来到天天文库
浏览记录
ID:58555963
大小:4.36 MB
页数:80页
时间:2020-09-05
《计算机系统结构(第九讲)课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、计算机系统结构(第九讲)厦门大学计算机科学系陆达2004年12月20日第六章向量处理机6.3向量处理机的存取模式和数据结构6.3.1数值算法的存取模式数值计算问题可能遇到的存取模式;存取模式对加快算法执行速度的作用;怎样设计机器以支持数值计算中经常遇到的存取模式例子:求解线性方程组A*x=b高斯消去法:A=L*UL*y=b和U*x=yL为下三角矩阵U为上三角矩阵算法的核心是N次循环的每一循环产生矩阵L的新的一列和矩阵U的新的一行图6.11:采用高斯消去法在LU分解时某个循环各部分数据的位置程序6.1:高斯消
2、去法程序6.1(高斯消去法)的特点:(1)~(4),见P360由此得到的结论:第一点~第四点,见P360-3616.3.2向量处理机的数据结构与算法相关的数据存取问题三种访问方式:(1)、仅需按行存取图6.12(a)(2)、仅需按行存取图6.12(b)(3)、既要按行存取又要按列存取图6.139*8个单元存放8*8个数据向量操作数的四个量:(1)、起始地址(2)、元素个数(3)、精度(每个元素的位数)(4)、步距(两个相邻元素间的偏移量)(向量的步距表示向量存取过程中,从一个元素到下一个元素的地址增量)图6.
3、14:BSP计算机五级数据流水线结构示意图(存储器模块数目不是2的幂,而是一个质数17)图6.15:一种按行、按列和按对角线存取效率都较高的数据结构5*5个单元存放4*4个数据访问行元素的步距为1;访问列元素的步距为6;访问对角线元素的步距为71、6、7与5是互质的6.4提高向量处理机性能的方法6.4.1向量处理机系统结构的设计目标1、较好地维持向量/标量性能平衡向量处理机还需要具有处理标量的功能向量平衡点(vectorbalancepoint):为了使向量硬件设备和标量硬件设备的利用率相等,一个程序中向量代
4、码所占的百分比。希望花在向量硬件上的时间和标量硬件上的时间相等每台处理机重复设置流水线功能部件可以提高向量运算性能;或者是向量部件采用超流水线技术图6.16(a)、图6.16(b):高性能向量处理机性能数据(Cray、Fujitsu、NEC、Hitachi)表6.1:7种超级计算机向量和标量性能的比较2、可扩展性随处理机数目的增加而提高所谓可扩展性是指在确定的应用背景下,向量处理机系统性能要随处理机数目的增加而线性地提高可扩展性的三个目标:(1)、规模可扩展性(2)、换代可扩展性(3)、问题可扩展性3、增加存
5、储器系统的容量和性能大规模存储器系统必须为标量处理提供低时延、为向量处理提供高频宽、为解决大型复杂问题提供大容量和高吞吐率的性能图6.17:向量处理计算机存储器容量存储器必须采用高效的层次结构:数据文件或磁盘、动态RAM的扩充存储器、静态RAM的快速共享存储器、用RAM阵列实现的高速缓存/局部存储器4、提供高性能的I/O和易访问的网络图6.16(c):向量处理计算机系统所支持的I/O频宽6.4.2提高向量处理机性能的常用技术1、链接技术寄存器-寄存器向量处理机有关的资源预定问题图6.18:四类向量指令图6.1
6、9:功能部件和操作数寄存器的预定(四种情况)什么是链接技术?结果寄存器可能成为后继指令的操作数寄存器,这种技术称为两条流水线的链接(chaining)。流水线链接是从流水线的内部定向概念发展而来的。链接是当从一个流水线部件得到的结果直接送入另一个功能流水线的操作数寄存器时所发生的连接过程。例6.1:V0<-存储器(存储器取)V2<-V0+V1(向量加)V3<-V27、C)V3<-AV2<-V0+V1V4<-V2*V3第一、第二条指令可并行执行;第三条指令与第一、第二条指令均存在先写后读的相关冲突,可将第三条指令与第一、第二条指令链接执行。如图6.22执行时间:(1)、三条指令全部采用串行方法:3*N+22(2)、前二条指令并行执行,第三条指令串行执行:2*N+15(3)、采用链接技术:N+16实现链接技术除了无向量寄存器使用冲突和无功能部件使用冲突外,还有时间上的要求(P372)2、向量循环或分段开采技术当向量的长度大于向量寄存器的长度时,必须把长向量分为长度固定的段;处8、理长向量的程序结构称为向量循环;这种技术也称为分段开采,一次处理一个向量段;向量分段为循环的过程,对程序员是透明的例6.3:第5、6条指令可以链接在一起当N>64时,就需要向量循环3、向量递归技术向量操作中,结果不送回到作为源操作数使用的同一个向量寄存器中,流水线功能部件的输出要回送到它的一个源向量寄存器,即一个向量寄存器用来同时存放源操作数和结果操作数分量计数器分量寄存器例子:采用浮点加法流水线完
7、C)V3<-AV2<-V0+V1V4<-V2*V3第一、第二条指令可并行执行;第三条指令与第一、第二条指令均存在先写后读的相关冲突,可将第三条指令与第一、第二条指令链接执行。如图6.22执行时间:(1)、三条指令全部采用串行方法:3*N+22(2)、前二条指令并行执行,第三条指令串行执行:2*N+15(3)、采用链接技术:N+16实现链接技术除了无向量寄存器使用冲突和无功能部件使用冲突外,还有时间上的要求(P372)2、向量循环或分段开采技术当向量的长度大于向量寄存器的长度时,必须把长向量分为长度固定的段;处
8、理长向量的程序结构称为向量循环;这种技术也称为分段开采,一次处理一个向量段;向量分段为循环的过程,对程序员是透明的例6.3:第5、6条指令可以链接在一起当N>64时,就需要向量循环3、向量递归技术向量操作中,结果不送回到作为源操作数使用的同一个向量寄存器中,流水线功能部件的输出要回送到它的一个源向量寄存器,即一个向量寄存器用来同时存放源操作数和结果操作数分量计数器分量寄存器例子:采用浮点加法流水线完
此文档下载收益归作者所有