面向GPU计算平台的若干并行优化关键技术研究

ID：37391146

大小：13.38 MB

页数：129页

时间：2019-05-23

资源描述：

《面向GPU计算平台的若干并行优化关键技术研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、面向GPU计算平台的若干并行优化关键技术研究学位论文完成日期：指导教师签字：答辩委员会成员签字：谨以此论文献给我的恩师徐建良教授、我的家人和朋友们!一一⋯一一一贾海鹏独创声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得(注!翅塑直基他盏噩挂别直蛆丝：奎拦亘窒2或其他教育机构的学位或证书使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并

2、表示谢意。学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，并同意以下事项：1、学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许论文被查阅和借阅。2、学校可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。同时授权清华大学“中国学术期刊(光盘版)电子杂志社”用于出版和编入CNKI《中国知识资源总库》，授权中国科学技术信息研究所将本学位论文收录到《中国学位论文全文数据库》。(保密的学位论文在解密后适用本授

3、权书)学位论文作者躲髫海J艏签字日期：如1埠l狷驴日新签字：徐：l墩签字日期：加／2句y上月矿日面向GPU计算平台的若干并行优化关键技术研究摘要随着计算能力和可编程性的不断增强，GPU被越来越多的应用开发人员用作性能加速器以提高程序性能。然而，如果没有经过精心优化，很难在GPU上实现理想性能。这是因为GPU程序的优化工作已经从硬件设计者转移到应用开发人员手中。而GPU程序的性能优化是一个非常困难的过程，其实质是实现算法特性向底层硬件特征的高效映射。一方面这个过程需要对GPU底层硬件有着深入的认识，而

4、现代GPU架构的目益多样性，无疑加剧了本已困难的优化工作；另一方面，移植到GPU上的应用的程序特性也日益多样化，从整体上看，这些应用可分为规则应用和非规则应用两大类。不同的程序特性在不同硬件架构上具有不同的优化方法和策略。为简化GPU程序的性能优化工作，使应用开发人员能够更加容易的实现高性能GPU程序。针对不同的应用特点，本文的主要工作可分为两部分：针对规则应用，我们提出性能优化链的概念，并根据GPU计算和访存的特点，将性能优化链划分为绝对性能优化链和相对性能优化链两类。通过引入Roofline模型

5、，实现了性能优化链的可视化，建立了针对特定硬件平台的可视化GPU程序性能优化指导模型：GPURoofline。该模型可通过提供性能信息来确定GPU程序在特定硬件平台上的性能瓶颈以及应选择的优化策略和方法，以此来指导应用开发人员特别是对GPU底层架构不熟悉的应用开发人员更加容易的实现高性能GPU程序。本文通过三个具有不同计算密度和程序特性的典型应用验证了GPURoofline模型的可用性和正确性。针对非规则应用，以Viola—Jones人脸检测算法为例，引入了非规则应用在GPU上实现和优化的五大关键技

6、术：粗粒度并行、Uberkernel、PersistentKernel、本地队列和全局队列。并通过性能特征参数的定义和抽取，完成了可调优GPUkernel的初步实现，并以此实现了Viola—Jones人脸检测算法在不同GPU平台上的性能移植。实验表明，经过优化的Viola—Jones人脸检测算法比OpenCV库中同样经过精心优化的CPU版本在AMDHD5850GPU、AMDHD7970GPU和NVIDIAC2050GPU三个GPU平台上分别达到了5．1弦27．724、6．468～35．080和5．8

7、50～28．768的性能提升。本文的创新点如下：(1)分析和比较当前主流GPU架构的异同，提出了GPU程序性能优化的三大有效途径：提高片外带宽利用率，提高计算资源利用率和数据本地化。(2)提出算法计算密度和硬件计算密度两个概念，并通过这两个概念的比较将GPUkernel分为访存密集型和计算密集型两大类。提出并构建针对特定硬件平台的性能优化链。并根据访存和计算优化的特点，将性能优化链划分为绝对性能优化链和相对性能优化链两类。(3)构建完成了一个可视化的GPU性能指导模型：GPURoofline。通过引

8、入Roofline模型实现了性能优化链的可视化，以一种更加直观的形式指导GPU程序的优化。(4)引入非规则应用在GPU实现和优化的五大方法和策略：粗粒度并行、Uberkernel、PersistThread、本地队列和全局队列。并通过Viola-Jones人脸检测算法说明了这五种方法的具体应用方式。最后，通过对性能参数的定义和抽取，初步完成了可调优kernel的实现，验证了在不同GPU硬件平台问实现性能移植的可能性。关键词：GPU；-胜能优化链；GPURoofline

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 129



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

面向GPU计算平台的若干并行优化关键技术研究

面向GPU计算平台的若干并行优化关键技术研究

相关文章

相关标签