欢迎来到天天文库
浏览记录
ID:35133184
大小:2.62 MB
页数:64页
时间:2019-03-19
《浅谈atlas在龙芯2f上的访存优化》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中国科学技术大学硕士学位论文ATLAS在龙芯2F上的访存优化姓名:苏波申请学位级别:硕士专业:计算机系统结构指导教师:顾乃杰20090501摘要BLAS是很重要的标准数学库,它主要是一系列矩阵与向量基本操作的集合,其运算性能的测试也是高性能计算机的重要评测手段。为发挥国产龙芯2F微处理器的计算性能,本文在基于龙芯2F处理器的高性能计算机系统KD.50.I上进行BLAS通用优化版本ATLAS的针对龙芯体系结构的优化。本文首先介绍了BLAS的函数功能,并着重分析了ATLAS实现时采用的矩阵和向量的存储数据结构。不
2、同的函数具有不同类型数据结构的参数,直接影响到ATLAS对各函数的优化和实现。随后介绍了龙芯2F体系结构,特别是对程序性能影响最大的流水线结构和存储器结构特点。基于龙芯2F体系结构特点和ATLAS各级函数的运算特征,提出一系列方法来优化ATLAS各函数的性能。主要的优化目标在于函数的访存方式,通过调度指令,尽可能地将计算时间隐藏于访存之中,同时有效利用内存以及cache特性,减少内存访问时间,以达到加快程序运行的目的。然后,根据BLAS二级函数的特点,将对BLAS2的优化目标确定在对内存的访问方式上,通过循环
3、展开减少内存访问次数,并利用龙芯2F的非阻塞cache机制形成内存访问流水线,加快内存访问速度,消除ATLAS函数运行时的性能波动,最终将BLAS二级函数性能提升30%以上。最后,通过对cache的有效利用,采用数据预取、矩阵分块以及部分拷贝等手段来减弱大规模参数下函数产生的cache失效问题,并使用循环展开方法减少对内存和cache的访问次数,优化后的BLAS3单精度函数性能较ATLAS提高近80%,而双精度函数性能提升50%以上。本文提出的各种方法对即将推出的龙芯3号处理器上的高性能BLAS实现有重要的参
4、考意义。关键词:龙芯2FATLAS循环展开指令调度数据预取cache失效。ABSTRACTAsanimportantMathematicStandardlibrary,BLAS(basiclinearalgebrasubroutirleslmainlysolvesthebasicoperationsofmatrixandvector.TestingofBLAS,sperformanceisacrucialmeanstoevaluateHighPerformanceComputers·ATLASisagener
5、aloptimizedversionofBLAS.InordertoachievehighusageofLoongson2FmicroprocessoLthisthesisimplementstheoptimizationofATLASonKD.50.I,whichisaHighPerformanceComputerbasedOnLoongson2F.Firstly'thisthesisintroducesthecharacteristicsofLoongsonarchitecture,especiallyt
6、hestructuresofpipMineandmemorywhichhavegreatinfluenceontheperfon】1anceofprogram.ThenthearticlestudiesthedatastructureofATLASde组iledlv.Di脏rentdatastructureleadstodifferentfunctionimplementationsandoptimization.AccordingtocharacteristicsofLoongsonarchitecture
7、andATLAS’Scomputingfeatures.asetoftechniquesareproposedtooptimizeBLASsubprograms·Themainobiectiveofthesetechniquesismemoryaccessapproach.Hidingthecomputingtlmebehindofmemoryaccessviainstructionscheduling,andefficientusageofmemoryandcachecanachievethepurpose
8、ofhighperformanceATLASoptimization·ByexploitingLoopUnrollingtechniquetodecreasememoryaccesstrequency,applyingnonblockingcachemechanismtoformmemoryaccesspipemle,mepe南nnaJlcofoptimizedBLAS2isimprovedto30
此文档下载收益归作者所有