循环展开和指令调度

循环展开和指令调度

ID:31478363

大小:889.50 KB

页数:10页

时间:2019-01-11

循环展开和指令调度_第1页
循环展开和指令调度_第2页
循环展开和指令调度_第3页
循环展开和指令调度_第4页
循环展开和指令调度_第5页
资源描述:

《循环展开和指令调度》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、WORD格式整理实验项目名称循环展开及指令调度实验目的及要求1.加深对循环级并行性、指令调度技术、循环展开技术以及寄存器换名技术的理解;2.熟悉用指令调度技术来解决流水线中的数据相关的方法;3.了解循环展开、指令调度等技术对CPU性能的改进。实验内容1.用指令调度技术解决流水线中的结构相关与数据相关(1)用MIPS汇编语言编写代码文件*.s,程序中应包括数据相关与结构相关(假设:加法﹑乘法﹑除法部件各有2个,延迟时间都是3个时钟周期)(2)通过Configuration菜单中的“Floatingpointstages”选项,把加法﹑乘法﹑除法部件

2、的个数设置为2个,把延迟都设置为3个时钟周期;(3)用winMIPS64运行程序。记录程序执行过程中各种相关发生的次数、发生相关的指令组合,以及程序执行的总时钟周期数;(4)采用指令调度技术对程序进行指令调度,消除相关;(5)用winMIPS64运行调度后的程序,观察程序在流水线中的执行情况,记录程序执行的总时钟周期数;(6)根据记录结果,比较调度前和调度后的性能。论述指令调度对于提高CPU性能的意义。2.用循环展开、寄存器换名以及指令调度提高性能(1)用MIPS汇编语言编写代码文件*.s,程序中包含一个循环次数为4的整数倍的简单循环;(2)用w

3、inMIPS64运行该程序。记录执行过程中各种相关发生的次数以及程序执行的总时钟周期数;(3)将循环展开3次,将4个循环体组成的代码代替原来的循环体,并对程序做相应的修改。然后对新的循环体进行寄存器换名和指令调度;(4)用winMIPS64运行修改后的程序,记录执行过程中各种相关发生的次数以及程序执行的总时钟周期数;(5)根据记录结果,比较循环展开、指令调度前后的性能。学习参考资料分享WORD格式整理实验步骤1.用指令调度技术解决流水线中的结构相关与数据相关1) 代 码: divf f2,f5,f6divf f1,f2,f6divf f3,f1,

4、f5divf f0,f4,f7addf f14,f0,f6addf f15,f5,f7    multf f20,f4,f6   multf f21,f5,f72)设置运算部件个数以及运算时钟周期数图1图2.Pipeline图以下为出现的数据相关学习参考资料分享WORD格式整理图3先写后读相关图4由于只有两个除法部件,所以出现了功能部件的冲突。 总的执行周期是38指令调度后代码:将无关指令放在一起执行,相关指令分开尽量避免数据相关divf f2,f5,f6   multf f20,f4,f6   multf f21,f5,f7   divf f1

5、,f2,f6   addf f15,f5,f7   divf f3,f1,f5   divf f0,f4,f7   addf f14,f0,f6 学习参考资料分享WORD格式整理图5.Pipeline图图6.Statistics图总执行时钟周期为35个。(6)指令调度后,数据相关减少了,总时钟周期数减少了,效能提高了。调度前的时钟周期数为38,调度后的时钟周期数减少为35,加速比 = 38/35= 1.082.用循环展开、寄存器换名以及指令调度提高性能带循环指令代码:求四个1相加的和,结果存在r2中.text学习参考资料分享WORD格式整理.gl

6、obalmainmain:addir1,r0,#4addir2,r0,#0Loop:sgtr3,r1,r0bnezr3,Sub1trap0Sub1:addir2,r2,#1subir1,r1,#1jLoop结果:总时钟周期是42个,5rawstalls,循环了4次,结果r2=4图7循环展开:代码:.text.globalmainmain:addir1,r0,#4addir2,r0,#0addir2,r2,#1subir1,r1,#1addir2,r2,#1subir1,r1,#1addir2,r2,#1subir1,r1,#1addir2,r2,

7、#1subi r1,r1,#1                 trap 0 结果:总时钟周期是15个,0 raw stalls,执行了4次,结果r2 = 4学习参考资料分享WORD格式整理图8原因的对比: 是因为LOOP指令执行完后会有一个nop指令的延迟。图9多Cache一致性:实验目的1、加深对多CACHE一致性的理解。2、进一步掌握解决多CACHE一致性的目录协议和监听协议的基本思想。3、掌握在各种情况下,目录协议和监听协议是如何工作的。给出进行操作的类型以及CACHE块状态的变化情况模拟器使用方法简介(目录式)该模拟器模拟4个CPU(A

8、、B、C、D)访存的工作过程。每个CPU中都有一个Cache,该Cache包含有4个块,其块地址为0-3。分布式存储器中有32个块,其块

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。