欢迎来到天天文库
浏览记录
ID:1471481
大小:187.50 KB
页数:4页
时间:2017-11-11
《amd和nvidia的gpu特点及优势》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、AMD和NVIDIA的GPU特点及优势发表时间:2011-4-25 作者:熊东旭 来源:e-works关键字: GPU 图形处理器 AMDGPU NVIDIAGPU 作为图形工作站标志性的配件,专业显卡良好的抗锯齿功能帮助图形工作站处理复杂的三维模型,保证线条的光滑。除线条抗锯齿功能,专业显卡对重叠图形、动态光源、图形剖切等操作的处理,与普通显卡也有着非常大的不同。作为专业显卡领域仅有的两家厂商,AMD和NVIDIA的专业显卡在性能和价格上都日益趋于同质化,纯粹的从性能和价格两方面来讨论两家产品孰优孰劣已不合适。为了更加深入的了解两家厂商专业级显卡产品的硬件特性,e-works将从
2、两家厂商的GPU架构着手来讨论两家产品的优势及不足。 一、GPU与显卡 简单来说,GPU与显卡的关系就好比CPU与主板的关系,主板有了CPU才有了动力之源,利用CPU提供的动能,主板才可以实现各种功能。同理,显卡之所以能加速图形图像处理,也是因为GPU为显卡提供了强大的运算能力。专业显卡发展到今天,无论是AMD还是NVIDIA,功能上已经日趋同质化,NVIDIA专业显卡能实现的功能,AMD也能实现,但从GPU运算能力来讲,两家厂商还是有一定可比较性。 二、AMD与NVIDIA的GPU架构 对于像素的特点,相关的文章也讨论的比较多。任何一个像素都包含着两种不同的属性信息,即色彩和
3、坐标。色彩信息包括RGB三原色和一个信息通道Alpha;坐标信息包括XYZ三维坐标信息和一个重力元素W。为对像素完成一次色彩计算和坐标转换,GPU的顶点着色单元和像素着色单元从一开始就被设计成为一个周期内具备4次运算能力的逻辑运算器,这便是4D矢量逻辑运算器的由来。 (1)AMD基于SIMD结构的流处理器 AMD的GPU采用的是SIMD架构模式,SIMD即SingleInstructionMultipleData,单指令多数据,这种架构能很好的对像素的色彩和坐标所包含的四维数据进行运算。传统的顶点单元和像素单元中的ALU都能在一个周期内完成对4D矢量数据的运算。因此,通常称这种逻辑
4、运算器为4DALU。图1SIMD架构 图1为SIMD架构流处理器的运算模式,通过唯一的指令发射端向所属的ALU发送运算需求,ALU在接收到运算指令后开始并行计算。需要注意的是,4DSIMD架构虽然很适合处理4D指令,但遇到1D指令的时候效率便会降为原来的1/4。此时的ALU,3/4的资源都被闲置。为了提高像素单元和顶点单元执行1D2D3D指令时的资源利用率,从DirectX9时代开始,AMD的GPU通常采用1D+3D或2D+2DALU。这便是Co-issue技术。这种ALU对4D指令的计算时仍然效能与传统的ALU相同,但当遇到1D2D3D指令时效率则会高不少,例如如下指令: ADD
5、R0.xyz,R0,R1 //此指令是将R0,R1矢量的x,y,z值相加结果赋值给R0 ADDR3.x,R2,R3 //此指令是将R2R3矢量的w值相加结果赋值给R3 对于传统的4DALU,显然需要两个周期才能完成,第一个周期ALU利用率75%,第二个周期利用率25%。而对于1D+3D的ALU,这两条指令可以融合为一条4D指令,因而只需要一个周期便可以完成,ALU利用率100%。但当然,即使采用co-issue,ALU利用率也不可能总达到100%,这涉及到指令并行的相关性等问题,而且,更直观的,上述两条指令显然不能被2D+2DALU一周期完成,而且同样,两条2D
6、指令也不能被1D+3DALU一周期完成。传统GPU在对非4D指令的处理显然不是很灵活。图2AMD5DALU流处理器 为进一步改善流处理器的运算性能,AMD推出了代号为R600的显卡核心,该GPU采用了统一渲染架构,采用了5路超标量运算单元,通过在流处理器内部集成5个1D标量运算单元,每一个流处理器都能进行1+1+1+1+1或1+4或2+3等方式搭配运算。同时,为提升ALU运算效率,AMD采用了VLIW体系设计,将多个短指令合并为一个超长指令交给流处理器去执行。 对于下述指令: ADDR0.xyz,R0,R1 //3D ADDR4.x,R4,R5 //1D ADDR2.x,R2
7、,R3 //1D R600也可以将其集成为一条VLIW指令在一个周期完成。 综上:R600的架构可以用64X5D的方式来描述。图3R600流处理器 R600采用SIMD架构,拥有64个SP,每个SP中有5个1DALU,因而通常声称R600有320个PSU,每个SP只能处理一条指令,ATI采用VLIW体系将短指令集成为长的VLIW指令来提高资源利用率,例如5条1D标量指令可以被集成为一条VLIW指令送入SP中在一个周期完成。(2)NVI
此文档下载收益归作者所有