欢迎来到天天文库
浏览记录
ID:40225064
大小:9.14 MB
页数:113页
时间:2019-07-27
《第9章 计算机体系结构的发展》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第9章计算机体系结构的发展内容提要:在计算机系统结构的发展中,除了建立在传统计算机上的向量机、阵列机、并行多处理机之外,还出现了脉动阵列机、数据流机、归约机以及各种人工智能机等。其中仅脉动阵列机推出较早,技术比较成熟之外,其它尚在研究阶段,有些技术还不成熟,本章仅以作简单介绍,其目的是为读者指出一些新的研究方向,以便在今后的工作中能够从事该领域的研究。第9章计算机体系结构的发展9.1脉动阵列机9.2数据流计算机9.3归约机9.4人工智能计算机的研究与发展9.1脉动阵列机9.1.1脉动阵列机的组成原理9.1.2面向特定算法脉动阵列机的结构形式9.1.3通用脉动阵列机的结构9.1.1脉动阵列机
2、的组成原理1.脉动阵列机概述阵列机是由主控制器CU将指令广播给各个处理单元,再由其中活跃的处理单元以同步的方式执行这同一功能的指令。而脉动阵列机(SystolicArrayComputer)则是阵列内所有处理单元的数据锁存器受同一时钟脉冲的控制。当阵列机运算时,数据在各处理单元间沿各自的方向同步向前推进,就象人体内的血液一样,随着脉搏跳动,一拍一拍地向前涌动。脉动阵列机的基本原理如图9.1所示。图(a)表示传统的阵列机的一个处理单元PE的工作过程,数据来自存储器,运算完成后再送入存储器。若设存储器的带宽为10MB/S,PE运算一次需要两个单字节的操作数,那么系统的运算速度不可能超过每秒5M
3、次。而图(b)是由6个处理单元构成一条流水线,存储器读出的数据依次流过各处理单元,同时运算。因此,整体系统的速度就可能是单一PE单元的6倍。这样就构成简单的一维线性脉动阵列机。图9.1脉动阵列结构示意图A·B=a00·b00+a01·b10a00·b01+a01·b11a10·b00+a11·b10a10·b01+a11·b11在脉动阵列机中,各处理单元之间的结构形式与算法紧密相关,可以是矩形、三角形或六边形等不同的形式。输入数据流和结果数据流可以多种速度在多个方向上同时流动,而每个处理单元只接收前一组处理单元送来的数据,并向后一处理单元传送结果。只有边缘上的处理单元才能作为输入输出端口,
4、与存储器传送数据。2.脉动阵列机的组成原理脉动阵列机与算法紧密相关,下面仅以简单二维数组的运算过程来说明脉动阵列机的组成原理。设有二维数组A和B,进行乘法运算,其数学表达式如下:则A=a00a01a10a11B=b00b01b10b11如果每一个处理单元PE能在每一步中执行z←z+x入*y入,x出←x入,y出←y入的操作。那么,就可以构成能进行2×2的二维矩形脉动阵列机,其示意如图9.2所示。图9.2脉动阵列结构示意图在进行2×2二维矩阵的乘法运算时,每经过一个时钟脉冲,数据向前推动一步,其过程如图9.3所示。在时钟t0时刻,各处理单元PE的累加器赋初值0;时钟t1,输入a00和b00,进
5、行a00·b00运算,a00和b00向前推进;在时钟t2时刻,输入a10、b10、a01和b01,并进行下一步向量元素的乘法与加法运算,元素继续向前推进;依次类推。经过4个时钟周期,完成2×2二维数组A和B的乘法运算。图9.3二维矩阵在脉动阵列机上的相乘过程9.1.2面向特定算法脉动阵列机的结构形式1.面向特定算法脉动阵列机的结构形式脉动阵列机是针对某些特定算法而设计的,适合于特定的领域。例如,在信号图像处理和模式识别等领域中,用于求解有限冲激响应(FIR)和无限冲激响应(IIR)滤波,进行一维和二维卷积、离散傅立叶变换等。在矩阵运算中,用于矩阵—-矢量乘法、矩阵—-矩阵乘法、三角形线性
6、方程组求解等。在非数值型领域中,用于堆栈、队列及类等数据结构的描述。根据求解问题的不同,脉动阵列机可以是一维线性阵列、二维矩形阵列、二维六边形阵列、二叉树形阵列以及三角形阵列等形式,如图9.4所示。图9.4脉动阵列机结构形式cij=∑aik·bkjk=02其中,0≤i≤2,0≤j≤2。A=a00a01a02a10a11a12a20a21a22B=b00b01b02b10b11b12b20b21b22C=A·B=c00c01c02c10c11c12c20c21c22则2.脉动阵列机举例对图9.2所示二维阵列结构进行改造,即可得到如图9.5所示,可进行3×3矩阵乘法运算的变形脉动阵列机。设有3
7、×3矩阵A和B:图9.53×3矩阵乘法运算脉动阵列机工作示意图为了能够进行两个3×3矩阵的乘法运算,每一个处理单元PE应包含一个乘法器和加法器,以完成内积和加法运算。在每一个时钟周期,可接收三个方向输入的数据,即水平方向由左向右,竖直方向由下向上,左下角沿45°方向到右上角;同时,可将结果传送到三个对应的输出端。即m′←m,n′←n,p←m×n+q。这样,在t1~t3时钟周期参加运算的矩阵元素开始输入脉动阵列机;t6时刻
此文档下载收益归作者所有