欢迎来到天天文库
浏览记录
ID:14439825
大小:2.17 MB
页数:121页
时间:2018-07-28
《cuda3.0编程指南正式版》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、CUDA编程指南3.0中文版译者:风辰QQ交流群:100810138E-mail:ily152832912@gmail.comCUDA.ITPUB.NET首发感谢我的父母,他们不但给我生命,还给了我无穷无尽的爱;感谢我的弟弟和妹妹,我爱你们;感谢课题组的老师和同学对我的无私帮助;感谢赵开勇、张舒和李修宇,他们帮我解决了很多CUDA问题;感谢it168的编辑覃里;最后感谢NV推出了CUDA技术,并持续的改进它。由于小弟的水平所限,此文档可能存在错误,如果你觉得本文档的某些内容可能是错误,请联系我,我不能像高纳德一样给你2.56美元,但是我会尽快修正它,谢谢!任何人不得将此文档用于
2、商业目的,否则后果自负。请大家保证此文档的完整性,未经我的允许,不要更改此文档的任何内容(包括首页),谢谢!1目录第一章导论61.1从图形处理到通用并行计算61.2CUDATM:一种通用并行计算架构71.3一种可扩展的编程模型81.4文档结构9第二章编程模型102.1内核102.2线程层次102.3存储器层次122.4异构编程132.5计算能力15第三章编程接口163.1用nvcc编译163.1.1编译流程163.1.2二进制兼容性173.1.3PTX兼容性173.1.4应用兼容性173.1.5C/C++兼容性183.2CUDAC183.2.1设备存储器183.2.2共享存储器
3、203.2.3多设备253.2.4纹理存储器262.2.4.1纹理参考声明263.2.4.2运行时纹理参考属性263.2.4.3纹理绑定273.2.5分页锁定主机存储器293.2.5.1可分享存储器(portablememory)303.2.5.2写结合存储器303.2.5.3被映射存储器303.2.6异步并发执行313.2.6.1主机和设备间异步执行313.2.6.2数据传输和内核执行重叠313.2.6.3并发内核执行313.2.6.4并发数据传输313.2.6.5流313.2.6.6事件333.2.6.7同步调用333.2.7图形学互操作性333.2.7.1OpenGL互操
4、作性343.2.7.2Direct3D互操作性353.2.8错误处理403.2.9使用设备模拟模式调试403.3驱动API423.3.1上下文4423.3.2模块443.3.3内核执行453.3.4设备存储器473.3.5共享存储器493.3.6多设备503.3.7纹理存储器503.3.8分页锁定主机存储器523.3.9异步并发执行523.3.9.1流523.3.9.2事件管理533.3.9.3同步调用533.3.10图形学互操作性533.3.10.1OpenGL互操作性543.3.10.2Direct3D互操作性553.3.11错误处理613.4运行时API和驱动API的互操
5、作性613.5版本和互操作性623.6计算模式633.7模式切换63第四章硬件实现644.1SIMT架构644.2硬件多线程644.3多设备65第五章性能优化指南675.1总体性能优化策略675.2最大化利用率675.2.1应用层次675.2.2设备层次675.2.3多处理器层次675.3最大化存储器吞吐量695.3.1主机和设备的数据传输695.3.2设备存储器访问705.3.2.1全局存储器705.3.2.2本地存储器715.3.2.3共享存储器715.3.2.4常量存储器725.3.2.5纹理存储器725.4最大化指令吞吐量725.4.1算术指令735.4.2控制流指令7
6、55.4.3同步指令75附录A支持CUDA的GPU77附录BC语言扩展79B.1函数类型限定符79B.1.1_device_79B.1.2_global_793B.1.3_host_79B.1.4限制79B.2变量类型限定符79B.2.1_device_80B.2.2_constant_80B.2.3_shared_80B.2.4volatile81B.2.5限制81B.3内置变量类型82B.3.182B.3.2dim3类型83B.4内置变量83B.4.1gridDim83B.4.2blockIdx83B.4.3blockDim83B.4.4threadIdx83B.4.5wa
7、rpSize84B.4.6限制84B.5存储器栅栏函数84B.6同步函数85B.7数学函数86B.8纹理函数86B.8.1tex1Dfetch()86B.8.2tex1D()87B.8.3tex2D()87B.8.4tex3D()87B.9时间函数87B.10原子函数87B.10.1数学函数87B.10.1.1atomicAdd()88B.10.1.2atomicSub()88B.10.1.3atomicExch()88B.10.1.4atomicMin()88B.10.1.5atomicM
此文档下载收益归作者所有