欢迎来到天天文库
浏览记录
ID:35163622
大小:644.53 KB
页数:17页
时间:2019-03-20
《xilinx全可编程器件出色的计算密集型系统开发平台》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、白皮书:FPGA/SoC容简介2GPU起源和目标工作负载3WP492(v1.0.1)2017年6月13日机器学习3GPU架构的局限性4SIMTALU阵列4Xilinx全可编程器件:出色的计算离散数据类型精度支持5密集型系统开发平台通过严格的存储器层级实现软件定义数据路径6有限的I/O选项7作者:CathalMurphy和YaoFu片上存储器资源7功耗范围8赛灵思AllProgrammableFPGA和SoC针对一系列计算功能安全性8密集型工作负载提供最高效、最具成本效益、时延最低、赛灵思FPGA的起源8最具设计灵活性并且满足未来需求的计算平台。赛灵思FPGA和SoC的独特优势
2、9原始计算能力9摘要效率和功耗9为了满足不断攀升的数据处理需求,未来系统需要在计算能力上大幅改进。传统AllProgrammable器件的灵活性10解决方案(例如x86处理器)再也无法以高效、低成本的方式提供所需的计算带任意到任意I/O灵活性12宽,系统设计人员必须寻找新的计算平台。片上存储器12FPGA和GPU越来越多地被系统设计人员看好,认为它们能够满足未来需求的计算平台。封装内的HBM13为新时代提供必要的计算效率和灵活性,本白皮书将对GPU以及赛灵思FPGA功能安全性13和SoC器件进行分析。结论13参考资料14修订历史17免责声明17©2017年赛灵思公司版权所有。X
3、ilinx、赛灵思标识、Artix、ISE、Kintex、Spartan、Virtex、Vivado、Zynq及本文提到的其它指定品牌均为赛灵思在美国及其它国家的商汽车应用免责声明17标。AMBA、AMBADesigner、ARM、ARM1176JZ-S、CoreSight、Cortex以及PrimeCell均为ARM在欧盟及其它国家的商标。PCI、PCIe和PCIExpress均为PCI-SIG拥有的商标,且经授权使用。所有其他商标均为其各自所有者的财产。WP492(v1.0.1)2017年6月13日china.xilinx.com1Xilinx全可编程器件:出色的计算密集型
4、系统开发平台简介未来系统(例如云数据中心[DC]和自动驾驶汽车)需要在计算能力上大幅改进,以支持不断增多的工作负载以及不断演进的底层算法[参考资料1]。例如,大数据分析、机器学习、视觉处理、基因组以及高级驾驶员辅助系统(ADAS)传感器融合工作负载都在促使计算性能能以低成本、高效的方式实现提升,并且超出现有系统(例如x86系统)的极限。系统架构师正在寻找能满足要求的新计算平台。该平台需要足够灵活,以便集成到现有的架构中,并支持各种工作负载及其不断演进的算法。此外,这些系统很多还必须提供确定性的低时延性能,以支持实时系统(例如自动驾驶汽车)所需的快速响应时间。图形处理单元(GPU
5、)厂商非常积极地将GPU定位成新时代计算平台的最佳之选,主要依据其在机器学习训练的高性能计算(HPC)领域取得的成功。在此过程中,GPU厂商针对机器学习推断工作负载修改了他们的架构。然而,GPU厂商还是忽视了基本的GPU架构的局限性。这些局限性会严重影响GPU以高效、低成本方式提供必要的系统级计算性能的能力。例如,在云端DC系统中,对工作负载的需求在一天内会发生很大变化。此外,这些工作负载的底层算法也会发生快节奏变化。GPU架构的局限性会阻止很多今天的工作负载和明天形成的工作负载映射到GPU,导致硬件闲置或低效。本白皮书的“GPU架构的局限性”部分对这些局限性进行了更详细介绍。
6、相反,赛灵思FPGA和SoC具有众多关键属性,使它们非常适合解决未来系统要求所提出的种种挑战。这些独特属性包括:•针对所有数据类型提供极高的计算能力和效率•具备极高灵活性,能够针对多种工作负载将计算和效率优势最大化•具备I/O灵活性,能方便地集成到系统中并实现更高效率•具备大容量片上存储器高速缓存,可提高效率并实现最低时延本白皮书的“赛灵思FPGA和SoC的独特优势”章节介绍了赛灵思架构的优势,并与GPU架构及其局限性进行对比。WP492(v1.0.1)2017年6月13日china.xilinx.com2Xilinx全可编程器件:出色的计算密集型系统开发平台GPU起源和目标工
7、作负载GPU的起源要追溯到PC时代,英伟达(NVidia)公司声称在1999年推出世界首款GPU,但有很多其他显卡要先于该公司的出品[参考资料2]。GPU是一款全新设计的产品,用来分担/加速图形处理任务,例如替CPU进行像素阵列的阴影和转换处理,其架构非常适合高并行吞吐量处理[参考资料3]。本质上,GPU的主要作用是为视觉显示器(VDU)渲染高质量图像。多年来,少量非图形的大规模并行和存储器相关工作负载是在GPU(而非CPU)上实现并且受益良多,例如需要大规模矩阵计算的医疗成像应用。GPU厂
此文档下载收益归作者所有