雷达信号处理:FPGA还是GPU-.doc

雷达信号处理:FPGA还是GPU-.doc

ID:28159566

大小:174.50 KB

页数:6页

时间:2018-12-08

雷达信号处理:FPGA还是GPU-.doc_第1页
雷达信号处理:FPGA还是GPU-.doc_第2页
雷达信号处理:FPGA还是GPU-.doc_第3页
雷达信号处理:FPGA还是GPU-.doc_第4页
雷达信号处理:FPGA还是GPU-.doc_第5页
资源描述:

《雷达信号处理:FPGA还是GPU-.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、雷达信号处理:FPGA还是GPU?  FPGA和CPU一直是雷达信号处理不可分割的组成部分。传统上FPGA用于前端处理,CPU用于后端处理。随着雷达系统的处理能力越来越强,越来越复杂,对信息处理的需求也急剧增长。为此,FPGA不断在提高处理能力和吞吐量,CPU也在发展以满足下一代雷达的信号处理性能需求。这种努力发展的趋势导致越来越多的使用CPU加速器,如图形处理单元(GPU)等,以支持较重的处理负载。  本文对比了FPGA和GPU浮点性能和设计流程。最近几年,GPU已经不仅能完成图形处理功能,而且成为强大的

2、浮点处理平台,被称之为GP-GPU,具有很高的峰值FLOP指标。FPGA传统上用于定点数字信号处理器(DSP),而现在足以竞争完成浮点处理功能,也成为后端雷达处理加速功能的有力竞争者。  在FPGA前端,40nm和28nm均报道了很多可验证的浮点基准测试结果。Altera的下一代高性能FPGA将采用Intel的14nm三栅极技术,性能至少达到5TFLOP。使用这种先进的半导体工艺,性能可实现100GFLOPs/W。而且,AlteraFPGA现在支持OpenCL,这是GPU使用的一款优秀的编程语言。    峰

3、值GFLOPS指标  目前的FPGA性能可达到1TFLOP以上峰值,AMD和Nvidia最新的GPU甚至更高,接近4TFLOP。但在某些应用中,峰值GFLOP,即TFLOP,提供的器件性能信息有限。它只表示了每秒能完成的理论浮点加法或乘法总数。这一分析表示,在雷达应用中,很多情况下,FPGA在算法和数据规模上超过了GPU吞吐量。  一种中等复杂且常用的算法是快速傅里叶变换(FFT)。大部分雷达系统由于在频域完成大量处理工作,因此会经常用到FFT算法。例如,使用单精度浮点处理实现一个4,096点FFT。它能在

4、每个时钟周期输入输出四个复数采样。每个FFT内核运行速度超过80GFLOP,大容量28nmFPGA的资源支持实现7个此类内核。  但如图1所示,该FPGA的FFT算法接近400GFLOP。这一结果基于“按键式”OpenCL编译,无需FPGA专业知识。使用逻辑锁定和设计空间管理器(DSE)进行优化,7内核设计接近单内核设计的fMAX,使用28nmFPGA,将其提升至500GFLOP,超过了10GFLOPs/W。    图1.StraTIxV5SGSD8FPGA浮点FFT性能  这一GFLOPs/W结果要比CP

5、U或者GPU功效高很多。对比GPU,GPU在这些FFT长度上效率并不高,因此没有进行基准测试。当FFT长度达到几十万个点时,GPU效率才比较高,能够为CPU提供有效的加速功能。但是,雷达处理应用一般是长度较短的FFT,FFT长度通常在512至8,192之间。  总之,实际的GFLOP一般只达到峰值或者理论GFLOP的一小部分。出于这一原因,更好的方法是采用算法来对比性能,这种算法能够合理的表示典型应用的特性。随着基准测试算法复杂度的提高,其更能代表实际雷达系统性能。    算法基准测试  相比依靠供应商的峰

6、值GFLOP指标来驱动处理技术决策,另一方法是使用比较复杂的第三方评估。空时自适应处理(STAP)雷达常用的算法是Cholesky分解。这一算法经常用于线性代数,高效的解出多个方程,可以用在相关矩阵上。  Cholesky算法在数值上非常复杂,要获得合理的结果总是要求浮点数值表示。计算需求与N3成正比,N是矩阵维度,因此,一般对处理要求很高。雷达系统一般是实时工作,因此,要求有较高的吞吐量。结果取决于矩阵大小以及所要求的矩阵处理吞吐量,通常会超过100GFLOP。  表1显示了基于NvidiaGPU指标1.

7、35TFLOP的基准测试结果,使用了各种库,以及XilinxVirtex6XC6VSX475T,其密度达到475KLC,这种FPGA针对DSP处理进行了优化。用于Cholesky基准测试时,这些器件在密度上与AlteraFPGA相似。LAPACK和MAGMA是商用库,而GPUGFLOP则是采用田纳西州大学开发的OpenCL实现的(2)。对于小规模矩阵,后者更优化一些。  表1.GPU和XilinxFPGACholesky基准测试(2)  Altera测试了容量中等的AlteraStraTIx®VFPGA(4

8、60K逻辑单元(LE)),使用了单精度浮点处理的Cholesky算法。如表2所示,在StraTIxVFPGA上进行Cholesky算法的性能要比Xilinx结果高很多。Altera基准测试还包括QR分解,这是不太复杂的另一矩阵处理算法。Altera以可参数赋值内核的形式提供Cholesky和QRD算法。  表2.AlteraFPGACholesky和QR基准测试  应指出,基准测试的矩阵大小并不相同。田纳西州大学

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。