浅谈atlas在龙芯2f上的访存优化

浅谈atlas在龙芯2f上的访存优化

ID:35133184

大小:2.62 MB

页数:64页

时间:2019-03-19

浅谈atlas在龙芯2f上的访存优化_第1页
浅谈atlas在龙芯2f上的访存优化_第2页
浅谈atlas在龙芯2f上的访存优化_第3页
浅谈atlas在龙芯2f上的访存优化_第4页
浅谈atlas在龙芯2f上的访存优化_第5页
资源描述:

《浅谈atlas在龙芯2f上的访存优化》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中国科学技术大学硕士学位论文ATLAS在龙芯2F上的访存优化姓名:苏波申请学位级别:硕士专业:计算机系统结构指导教师:顾乃杰20090501摘要BLAS是很重要的标准数学库,它主要是一系列矩阵与向量基本操作的集合,其运算性能的测试也是高性能计算机的重要评测手段。为发挥国产龙芯2F微处理器的计算性能,本文在基于龙芯2F处理器的高性能计算机系统KD.50.I上进行BLAS通用优化版本ATLAS的针对龙芯体系结构的优化。本文首先介绍了BLAS的函数功能,并着重分析了ATLAS实现时采用的矩阵和向量的存储数据结构。不

2、同的函数具有不同类型数据结构的参数,直接影响到ATLAS对各函数的优化和实现。随后介绍了龙芯2F体系结构,特别是对程序性能影响最大的流水线结构和存储器结构特点。基于龙芯2F体系结构特点和ATLAS各级函数的运算特征,提出一系列方法来优化ATLAS各函数的性能。主要的优化目标在于函数的访存方式,通过调度指令,尽可能地将计算时间隐藏于访存之中,同时有效利用内存以及cache特性,减少内存访问时间,以达到加快程序运行的目的。然后,根据BLAS二级函数的特点,将对BLAS2的优化目标确定在对内存的访问方式上,通过循环

3、展开减少内存访问次数,并利用龙芯2F的非阻塞cache机制形成内存访问流水线,加快内存访问速度,消除ATLAS函数运行时的性能波动,最终将BLAS二级函数性能提升30%以上。最后,通过对cache的有效利用,采用数据预取、矩阵分块以及部分拷贝等手段来减弱大规模参数下函数产生的cache失效问题,并使用循环展开方法减少对内存和cache的访问次数,优化后的BLAS3单精度函数性能较ATLAS提高近80%,而双精度函数性能提升50%以上。本文提出的各种方法对即将推出的龙芯3号处理器上的高性能BLAS实现有重要的参

4、考意义。关键词:龙芯2FATLAS循环展开指令调度数据预取cache失效。ABSTRACTAsanimportantMathematicStandardlibrary,BLAS(basiclinearalgebrasubroutirleslmainlysolvesthebasicoperationsofmatrixandvector.TestingofBLAS,sperformanceisacrucialmeanstoevaluateHighPerformanceComputers·ATLASisagener

5、aloptimizedversionofBLAS.InordertoachievehighusageofLoongson2FmicroprocessoLthisthesisimplementstheoptimizationofATLASonKD.50.I,whichisaHighPerformanceComputerbasedOnLoongson2F.Firstly'thisthesisintroducesthecharacteristicsofLoongsonarchitecture,especiallyt

6、hestructuresofpipMineandmemorywhichhavegreatinfluenceontheperfon】1anceofprogram.ThenthearticlestudiesthedatastructureofATLASde组iledlv.Di脏rentdatastructureleadstodifferentfunctionimplementationsandoptimization.AccordingtocharacteristicsofLoongsonarchitecture

7、andATLAS’Scomputingfeatures.asetoftechniquesareproposedtooptimizeBLASsubprograms·Themainobiectiveofthesetechniquesismemoryaccessapproach.Hidingthecomputingtlmebehindofmemoryaccessviainstructionscheduling,andefficientusageofmemoryandcachecanachievethepurpose

8、ofhighperformanceATLASoptimization·ByexploitingLoopUnrollingtechniquetodecreasememoryaccesstrequency,applyingnonblockingcachemechanismtoformmemoryaccesspipemle,mepe南nnaJlcofoptimizedBLAS2isimprovedto30

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。