大规模声学边界元法的GPU并行计算.pdf

大规模声学边界元法的GPU并行计算.pdf

ID:55099854

大小:943.25 KB

页数:11页

时间:2020-05-09

大规模声学边界元法的GPU并行计算.pdf_第1页
大规模声学边界元法的GPU并行计算.pdf_第2页
大规模声学边界元法的GPU并行计算.pdf_第3页
大规模声学边界元法的GPU并行计算.pdf_第4页
大规模声学边界元法的GPU并行计算.pdf_第5页
资源描述:

《大规模声学边界元法的GPU并行计算.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第32卷第3期计算物理Vo1.32.NO.32015年5月CHINESEJOURNALOFCOMPUTATIONALPHYSICSMay,2015文章编号:1001—246X(2015)03-0299—11大规模声学边界元法的GPU并行计算张锐,文立华,校金友(西北工业大学航天学院,陕西西安710072)摘要:提出一种大规模声学边界元法的高效率、高精度GPU并行计算方法.基于Burton—Miller边界积分方程,推导适于GPU的并行计算格式并实现了传统边界元法的GPU加速算法.为提高原型算法的

2、效率,研究GPU数据缓存优化方法.由于GPU的双精度浮点运算能力较低,为了降低数值误差,研究基于单精度浮点运算实现的double—single精度算法.数值算例表明,改进的算法实现了最高89.8%的GPU使用效率,且数值精度与直接使用双精度数相当,而计算时间仅为其l/28,显存消耗也仅为其一半.该方法可在普通PC机(8GB内存,NVIDIAGeForce660Ti显卡)上快速完成自由度超过300万的大规模声学边界元分析,计算速度和内存消耗均优于快速边界元法.关键词:声学;边界元法;大规模问题;G

3、PU计算;优化算法中图分类号:0422.2文献标志码:A0引言大规模声学问题的快速求解是航天器全频域力学环境预示的关键技术之一_】J,是进行航天器声振耦合分析的重要手段.边界元法(Boundaryelementmethod,BEM)是计算声学中的重要数值方法,具有降维、半解析及易于处理无限域(半无限域)问题等优势.然而传统边界元法(ConventionalBEM,CBEM)形成非对称的稠密系数矩阵,求解复杂度为O(Ⅳ)量级(Ⅳ为未知量数目),难以处理大规模问题.上世纪80年代以来,国际上提出了许

4、多快速边界元方法,如快速多极法(Fastmultipolemethod,FMM)¨、H一矩阵法(Hierarchicalmatrix)、预校正快速傅里叶变换法(precorrected.FF'rmethod,pFFT)。。和小波方法(WaveletBEM,WBEM)等.快速边界元法利用对系数矩阵的分块低秩逼近将边界元法的求解复杂度降到O(NlogN)量级,可在中小型计算机上求解上百万自由度的大规模声学问题.但是随着频率的升高,一方面计算规模会迅速增大,另一方面快速边界元法系数矩阵的分块低秩特性会

5、逐渐消失,导致各种常规快速算法无法应用在高频问题中.Cheng等和Engquist等¨分别了提出高频快速多极算法(HighfrequencyFMM)和快速定向算法(Fastdirectionalalgorithms,FDA),但是这些算法非常复杂.随着计算机硬件的不断进步,并行计算技术广泛应用于各类数值方法中.传统的并行计算基于大型计算机集群,不仅成本高昂,而且程序设计复杂.近年来,图形处理器(Graphicsprocessingunit,GPU)被广泛应用于图形之外的科学计算领域,显示出巨大的

6、潜力卜埽.目前的主流GPU拥有上千个计算核心,单精度浮点运算能力远远超过主流中央处理器(Centralprocessingunit,CPU),而硬件成本和功耗却远低于同等计算能力的CPU集群¨.2007年,NVIDIA推出的统一计算设备架构(Computeunifieddevicearchitecture,CUDA)大大降低了GPU通用计算程序开发的复杂度¨卜t3].2009年,Takahashi等将GPU并行计算用于加速Helmholtz方程的CBEM求解,在N=1×10时获得了最高22.6倍

7、的加速比,达到最高75.3%的GPU使用效率.2011年,Huang等¨研究了Burton-Miller方程的CBEMGPU加速方法,可快速完成N=2×10的声学BEM分析.近两年,文献[16—18]将GPU并行计算与快速边界元法结合,在CPU+GPU异构超级计算机上进行自由度上亿的超大规模BEM分析.CBEM具有算法简单和非常适合并行计算的特点,但目前文献中的GPU加速CBEM只能分析自由度数收稿日期:2014—03—21;修回日期:2014—06—10基金项目:国家自然科学基金(110742

8、01,1l102154)及教育部博士点基金(20106102120009,20116102110006)资助项目作者简介:张锐(1989一),男,博士生,主要从事计算力学研究,E—mail:ruizhang@mail.nwpu.edu.cn300计算物理第32卷十万的中小规模问题,难以应用到高频问题中.一方面,目前算法的GPU使用效率还有进一步提高的空间.另一方面,由于普通GPU的单精度浮点运算速度远高于双精度浮点运算速度,故GPU并行算法通常采用单精度数,但是随着问题规模的增大,单精度浮点运算

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。