欢迎来到天天文库
浏览记录
ID:40424807
大小:914.60 KB
页数:65页
时间:2019-08-02
《并行计算机体系结构第二章》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第二章并行计算机系统的性能度量并行计算机系统的性能度量硬件效率、各功能部件之间的性能平衡软件效率软硬件和需求之间的性能匹配。理想的系统应该是无瓶颈的平衡系统、结构支持应用,应用适应结构理想的计算机是为应用量身定制的计算机并行计算机系统的性能度量衡量计算机性能的指标计算速度、存储容量、响应时间、通信带宽和系统吞吐率、每条指令的平均执行时间为了降低计算机成本,我们通过硬件功能的软化实现,比如我们将视频解压卡换为信息解压软件。2.1计算机速度计算机通过运行程序来完成工作。不能用一段程序的运行时间来衡量计算机的性能,往往一段程
2、序的运行与它跟计算机适应的程序相关为了客观综合描述计算机系能,我们往往用大量程序运行的运行速度进行衡量,或者我们还可以用所谓的制定运行库来衡量计算机性能。2.1计算机速度为了定量讨论机器速度,定义下列参数ζ:时钟周期f=1/ζ:时钟频率CPI:执行每条指令的平均周期数。IPC=1/CPI:平均每拍流出的指令数。Ic:给定程序的指令数T:给定程序的执行时间。TFU:功能部件时间常数,一般为功能部件的流水线段数+2.2.1计算机速度指令条数Ic的程序的执行时间为T=Ic*CPI*ζ。指令的执行:取指令、指令译码、取操作数、
3、操作、存操作数。指令部件和功能部件协同完成。在流水线中,指令流出时就完成了译码,所以每条指令有一个与操作相关的功能部件时间常数和数据传送的最小执行周期数。对R-R型指令,CPI=TFU。2.1计算机速度对m-m型指令,CPI=TFU+mk。其中k为存储器周期与时钟周期之比,m为访存次数。当访存出现冲突时,导致CPI增加。2.1计算机速度T=Ic*(TFU+mk)*ζIc:与应用程序、指令系统和编译有关;ζ:机器主频的倒数。受限于指令功能的复杂程度、器件的水平和采用的技术,与指令系统和实现技术有关m:与存储系统结构和访存
4、指令类型有关k:与存储器结构、实现技术和ζ有关。TFU:与指令功能、实现技术和ζ有关。2.1.1MIPS、Flops和PDRMIPS速率设C为执行已知程序的时钟周期数。则T=C*tMIPSM指令/秒。MIPS=I/(T*106)=f/(CPI*106)MIPS与时钟频率成正比,与CPI成反比计算机系统中的指令系统、编译器、处理器和存储技术对MIPS都有影响。2.1.1MIPS、Flops和PDRMIPS提高MIPS的最有效的办法就是提高主频和每拍流出的指令条数。为提高主频:指令尽量简洁,功能实现的逻辑时间短,推动了RI
5、SC的发展为提高IPC:超长指令字,超标量和并行处理机。2.1.1MIPS、Flops和PDRMflops:反映计算机每秒产生的结果数,不计指令仅计结果比MIPS公正。MIPS和Mflops都没有考虑机器的字长或数据的精度。但是精度与机器性能直接相关。2.1.1MIPS、Flops和PDRPDR:对不同操作和字长加权后的每秒处理多少位数据。用以衡量计算机的速度PDR=L/R。L=0.85*定点指令位数+0.15*浮点指令数+0.4*定点数字长+0.15*浮点数字长R=0.85*定点加时间+0.09*浮点加时间+0.06
6、*浮点乘时间2.1.2SPEC和TPSSPEC:为了公正的评价计算机的性能,推出基准测试程序,用这些程序在被测机上运行的时间除对应程序的参考时间所得值的几何平均值就是所谓的SPEC分数值。SPEC主要针对处理器、存储器和编译性能的测试,不针对I/O和通信性能测试,尤其不适合于多机系统的性能评价。2.1.2SPEC和TPSTPS:TPS评价更佳侧重于事务处理,单位时间内完成的交易。主要取决于计算机硬件的计算、I/O和通信速度,也取决于操作系统和数据库等软件性能。2.2并行计算机的速度计算并行化的应用程序在并行计算机上的执
7、行时间最能反映并行系统的处理性能。与系统提供的性能支持、应用程序特性、并行算法、并行程序和并行编译水平有关。应能最大程度地利用并行系统中处理机资源,发挥其性能潜力。2.2.1算术平均速度2.2.2调和平均速度2.2.3几何平均速度2.3并行计算机的加速比和效率程序的并行性并行度:并行化程序在有p个处理机的系统上运行,使用的处理机的数目,为时间的函数,记作DOP(t)<=p。t0-t1期间并行度的算术平均值,称为程序的并行性A。2.3.2加速比通式加速比反映并行系统运行并行程序时系统并行能力发挥的程度。加速比定义为其中T
8、(1)是程序在单处理机上执行完的时间,T(n)是程序以并行度i(i<=P,其中P为处理机数目)并行执行完程序的时间。1<=S(p)<=P2.3.2加速比通式多机运行过程中,一定会有多个计算机之间的通信设总工作量为W,并设程序中并行度为i的工作量为Wi=fiW则,其中V1为单机运行速度。2.3.2加速比通式当程序的并行度大于系统的处
此文档下载收益归作者所有