cuda基本介绍介绍

cuda基本介绍介绍

ID:36290923

大小:3.60 MB

页数:73页

时间:2019-05-08

cuda基本介绍介绍_第1页
cuda基本介绍介绍_第2页
cuda基本介绍介绍_第3页
cuda基本介绍介绍_第4页
cuda基本介绍介绍_第5页
资源描述:

《cuda基本介绍介绍》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、CUDA基本介绍基于NvidiaGPU的通用计算开发张舒电子科技大学电子工程学院06级硕士研究生信号探测与获取技术专业研究方向:合成孔径雷达成像与雷达目标像识别信号处理与模式识别的算法与硬件实现研究GPU的优势强大的处理能力GPU接近1Tflops/s高带宽140GB/s低成本Gflop/$和Gflops/w高于CPU当前世界超级计算机五百强的入门门槛为12Tflops/s一个三节点,每节点4GPU的集群,总处理能力就超过12Tflops/s,如果使用GTX280只需10万元左右,使用专用的Tesla也只需20万左右GPU/CPU计算能力比较G

2、PU/CPU存储器带宽比较GPU/CPU架构比较延迟与吞吐量CPU:通过大的缓存保证线程访问内存的低延迟,但内存带宽小,执行单元太少,数据吞吐量小需要硬件机制保证缓存命中率和数据一致性GPU:高显存带宽和很强的处理能力提供了很大的数据吞吐量缓存不检查数据一致性直接访问显存延时可达数百乃至上千时钟周期单核CPU已经走到了尽头频率提高遇到了瓶颈从p4时代至今主流处理器频率一直在2GHz-3GHz左右架构上已无潜力可挖。超线程多流水线复杂的分支预测大缓存等技术已经将性能发挥到了极致,但是通用计算中的指令级并行仍然偏低上述技术占用了芯片上的绝大多数晶体

3、管和面积,目的却只是让极少数的执行单元能够满负荷工作GPU能够更好的利用摩尔定律提供的晶体管图形渲染过程高度并行,因此硬件也是高度并行的少量的控制单元,大量的执行单元显存被固化在了PCB上,拥有更好的EMI性能,因此运行频率高于内存通过更大的位宽实现了高带宽当前的单核并行计算产品IBMCell应用主要见于PS3SUNNiarragaNPUNV/ATIGPU大规模应用GPU最为常见,受市场牵引发展最快,性价比最高架构比较硬件CPUGPUFPGAAES-128解密实测速度(GByte/s)0.119(Core2 E6700中单核)1.78(FX98

4、00GTX+)1.02(互联网资料中单片FPGA最大值)开发难度小较小大增加功能容易容易难硬件升级无需修改代码无需修改代码需要修改代码与主控端通信不需要通过PCI-E,实际速度一般为3G左右,通过API实现,较简单需要为FPGA编写额外的驱动程序,实现通信协议需要额外的硬件资源性能/成本高低高片外存储器内存,容量大,速度低显存,容量较大,速度高FPGA板上内存,一般为DDRII,速度低开发周期短短长CPUGPUFPGA实现比较当前的GPU开发环境Cg:优秀的图形学开发环境,但不适合GPU通用计算开发ATIstream:硬件上已经有了基础,但只有

5、低层次汇编能够使用所有资源。高层次抽象Brook本质上是基于上一代GPU的,缺乏良好的编程模型OpenCL:联合制定的标准,抽象层次较低,对硬件直接操作更多,代码需要根据不同硬件优化CUDA:目前最佳选择未来的发展趋势GPU通用计算进一步发展:更高版本的CUDA,OpenCL新产品涌现:Nvidia和AMD的下一代产品,Intel的LarraBeeCPU+GPU产品:减少了CPU-GPU通信成本,但存储器带宽和功耗面积等可能将制约集成度。在较低端的应用中将有用武之地。CUDA的硬件架构适合通用计算G8x系G9x系GT200系列标量机架构提高了处

6、理效率,更加适合通用计算增加了sharedmemory和同步机制,实现线程间通信以通用的处理器矩阵为主,辅以专用图形单元GTX280性能933Gflops(MAD)单精度116Gflops双精度(MAD)512bit位宽ddr3显存,提供了140GB/s的带宽1G的显存GT200框图TPC3SMInstructionandconstantcacheTextureLoad/storeSMROPROP对DRAM进行访问TEXTURE机制对global的atomic操作微架构比较执行流水线工作在通用计算模式下的GT200SM架构DUAL-Issue并

7、发每二周期可以发射一次指令FPU和SFU指令延迟是四周期某些情况下可以让FPU和SFU并发执行,实现超标量理论处理能力峰值没有计算dual-issue双精度浮点计算不能dual-issueCUDA架构GPU硬件特点硬件资源模块化,根据市场定位裁减高度并行存在TPCSM两层每个SM又有8SPSM内存在高速的sharedmemory和同步机制原子操作有利于实现通用计算中的数据顺序一致性sharedmemoryTexturecacheconstantcache等高速片内存储器有助于提高数据访问速度,节省带宽如何选购硬件目前(2008.12)只有CUD

8、A能够完全发挥新一代GPU的全部计算能力。Nvidia的G80以上的GPU能够支持CUDA。GT200系列不仅性能更强,而且具有很多实用的新特性Tes

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。