北邮实验四代码优化.docx

北邮实验四代码优化.docx

ID:59222577

大小:77.20 KB

页数:7页

时间:2020-09-09

北邮实验四代码优化.docx_第1页
北邮实验四代码优化.docx_第2页
北邮实验四代码优化.docx_第3页
北邮实验四代码优化.docx_第4页
北邮实验四代码优化.docx_第5页
资源描述:

《北邮实验四代码优化.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、北京邮电大学计算机学院《计算机系统结构》课程实验2015年4月实验四代码优化一、实验类别:综合实验二、实验目的:学习简单编译优化方法,观察采用编译优化方法所带来的性能的提高。三、实验学时:4四、实验组人数:1/1五、实验设备环境:DLX汇编语言环境六、实验原理:采用静态调度方法重排指令序列,减少相关,优化程序七、教学要点与学习难点:指令静态调度方法。八、实验内容和要求:对实验二或实验三的代码进行优化,给出性能改进的量化值,同时给出采取优化手段的理论依据。九、实验步骤:(1)使用静态调度方法手工优化实验2或实验3的代码(2)对优化程序,重复实验二中(1)、(2)、(3)、(4)工作。1.

2、使用向量加法运算作为优化对象代码优化前:.dataVectorLength:.word16Vector1:.word1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16Vector2:.word1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16Printf1:.asciiz"Vector="Printf2:.asciiz"%f".align2PrintPrompt:.wordPrintf1PrintPar:.wordPrintf2Result:.space4.textmain:addir14,r0,PrintPrompttrap5lwr

3、20,VectorLengthaddir2,r0,0Loop:ldf10,Vector1(r2)ldf12,Vector2(r2)cvti2df0,f10cvti2df2,f12adddf4,f2,f0Finish:;****Finish,writeresultintostdoutsdResult,f4addir14,r0,PrintPartrap5addir2,r2,4subir20,r20,1bnezr20,Loop;****Endtrap0代码优化后:.data VectorLength: .word 16 Vector1:     .word 1,2,3,4,5,6,7,8,9

4、,10,11,12,13,14,15,16Vector2:     .word 1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16  Printf1:     .asciiz "Vector ="Printf2:        .asciiz  " %f"  .align 2 PrintPrompt: .word Printf1 PrintPar:  . word Printf2 Result:  .space  4    .text main:    addi  r14,r0,PrintPrompt  trap  5 addi  r2,r0,0       

5、  lw  r20,VectorLength     Loop:   ld  f10,Vector1(r2)    ld  f12,Vector2(r2)   addi  r2,r2,4         cvti2d f0,f10 ;此处进行优化   cvti2d f2,f12    subi  r20,r20,1    addd  f4,f2,f0   ;此处进行优化,之前插入一条指令,避免f2的RAW冲突      sd  Result,f4    addi  r14,r0,PrintPar trap  5 ;addi  r2,r2,4  ;subi  r20,r20,1  bne

6、z  r20,Loop    trap  0程序结果(两个一样)2.代码优化前后的statistics对比(左图为优化前右图为优化后)优化之后其中断数据显示为:  优化前为:由上述两图对比可以看出, 数据相关:其RAW相关由优化前的34.12%减少为20.57%,性能改善很多; 结构相关没有发生改变; 控制相关:由原来的3.94%变为4.75%,没有改善。 因此,可以看出,我所进行的代码优化对性能方面改善并不是很强烈,主要影响还是在数据相关方面上图左图为4个浮点部件执行结果,右图为原始默认1个浮点部件执行结果。由此可以看出,其部件个数对统计结果并无影响。 原因为该运算过程中不存在结构相

7、关,因此并行度没有增加,程序影响不大,部件增加对于系统的性能并没有改善。左图为使用forwading技术的统计结果。 通过对比可以看出,使用forwarding技术之后执行周期少了316-267=49个时钟周期,在这些时钟周期中,forwarding技术主要在于消除了执行过程中的数据相关(由65个中断减少至16个)。因此,代码执行效率改善很多。 由统计结果中的Conditional Branches可以看出, 优化前和优化后的Condition

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。