欢迎来到天天文库
浏览记录
ID:38145298
大小:1.71 MB
页数:6页
时间:2019-05-25
《Nehalem平台上的Linpack参数训练与调优》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、Vol.3No.8/Aug.2009Nehalem平台上的Linpack参数训练与调优孟金涛 刘涛 冯圣中摘 要Linpack是当前高性能计算机性能测试的通用标准。此前研究主要在分析和验证测试参数的配置对测试结果的影响,然没有一套特定的Linpack参数调优策略以获取最优Linpack测试结果。本文提出了一种Linpack参数调优的训练方法,并在Intel的Nehalem平台上逐步分析,最终将Linpack的所有参数调优并使得Linpack的峰值性能最优以提高系统效率。关键词Linkpack;参数配置;性能测试1 引言[10]参数,然后对
2、其他参数穷举的实验方式寻找最佳[11]由于Core架构存在的种种弊端(双核粘连,制约参数配置,而与平台无关的快速参数训练方法却[12]系统性能的前端总线FSB),它已经很难适应需要高性没有出现。现在测试人员面临着完成一次测试动能多处理器的企业级计算领域的需求。因此Intel提辄需要几小时以上,单就问题规模、矩阵分块和处出了新的Nehalem微架构,Nehalem的技术指标理器阵列分布3项的有效组合已是让人乏力,试验所主要是以Nehalem-EP(Gainestown)为范例来介绍有的参数组合是不可能的。因此建立一个与平台无的,该核心将会用
3、于XeonDP,就是用于服务器的关的可靠而便捷的Linpack参数训练方法对于减少双路CPU。Nehalem是4核心、8线程、64bit、4超linpack测试时间,提高测试结果中的系统效率,以标量发射、乱序执行的CPU,有16级流水线、48bit及减少测试过程中的能源消耗至关重要。本文就此虚拟寻址和40bit物理寻址,主要的新增特性包括问题提出了一套参数训练方法以寻找最优的参数配QPI,IMC,以及SMT。本文也就将对此新型微架构置,并逐步分析校验结果,最终此参数训练方法相做Linpack参数调优。比于其他参数寻找策略能找到较好的参数配
4、置使得Linpack[1-3],SPEC[4],NASParallel系统效率更高。[5-6]Benchmarks(NPB)为广泛采用的3个计算机性能2 研究背景[7],[9]的基准测试程序。其中Linpack目前最流行的用于如何进行linpack测试,并配置参数使得系统性测试高性能集群系统浮点运算性能的基准测试程序,也是高性能计算机系统性能Top500的评价标准。能最优,一直是一个比较费力的工作,而且当前的[11]研究主要专注于一些经验性分析和指导上。测试Linpack通过对稠密线性代数方程组求解能[12-16],[18]人员对特定机群
5、系统做了一些测试工作,并力的测试,评价高性能计算机系统的浮点性能。根对参数选取也提出了一些经验性的建议。例如[12]据问题规模与优化选择的不同分为100×100,[8]提出把参数分为A类和B类分别进行参数设置,并在1000×1000,n×n3种测试。其中HPL(highIBM1350集群上做了测试。[13]在SMP机群通过测performanceLinpack)是第1个标准的公开版本并试分析了[12]中的A类参数对系统性能的影响,并总行Linpackn×n测试的MPI实现,可适应多体系移[8]结了一些和[11]相似的结论。[15]给出了曙
6、光公司植,目前广泛用于Top500测试这一测试主要针对分布式存储大规模并行计算系统而设计,用户可以在多核协处理器加速卡参数分析与配置情况。另外设置任意大小的问题规模,使用任意个数的CPU,[14],[16]在更大规模的集群配置上的经验,也给出了利用基于高斯消去的各种优化方法寻求最佳的测试其相应的实验结果。而[17]提出并验证了linpack性结果。能测试的仿真预测模型,可用于预测测试需要运行的时间长度以及特定系统的性能潜力。根据算法及源码实现,HPL运行时有多个可调参数。要获得HPL实测峰值,需要对参数进行精心的调然而对于一个特定的机群系
7、统希望通过测试以配。目前只能根据经验对特定系统结构选定一部分找到其实测峰值,是非常费力而且面对众多参数,38Nehalem平台上的Linpack参数训练与调优没有一个系统的参数选择和测试方法,要最大化系的分析并逐个优化HPL.dat里面的所有参数。统的实测峰值也不容易。另外对于新的混合体系1.测试目标是单个结点,在下面的测试中,通过修结构的出现,使得以往的配置经验配置的linpack改HPL.dat文件中的参数,再使用mpirun–np8参数并不能得到最高的实测峰值(例如本文所使用xhpl命令得到测试结果。的Nehalem平台的PQ参数配
8、置)。所以一个系统2.首先进行小规模矩阵(这里矩阵规模N的设定为的参数配置和性能测试方法对于当前混合体系结构8192)的参数测试训练阶段:(CPU+GPU)的高性能计算系统也非常必要。本文即(
此文档下载收益归作者所有