基于FPGA的异构计算是趋势.doc

基于FPGA的异构计算是趋势.doc

ID:27904443

大小:252.50 KB

页数:9页

时间:2018-12-06

基于FPGA的异构计算是趋势.doc_第1页
基于FPGA的异构计算是趋势.doc_第2页
基于FPGA的异构计算是趋势.doc_第3页
基于FPGA的异构计算是趋势.doc_第4页
基于FPGA的异构计算是趋势.doc_第5页
资源描述:

《基于FPGA的异构计算是趋势.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于FPGA的异构计算是趋势  算起来,人工智能(AI)概念已经提出60多年了,而最近两年,得益于智能终端的普及带来的数据爆发式增长,以及深度学习、神经网络算法的发展,AI市场受到了空前的关注,但AI要得以快速普及,还缺少高算力的推动,需要提供更好的硬件加速条件。  2018年4月17日,业界领先的异构加速和业务卸载方案提供商杭州加速云信息技术有限公司在京举办了科技峰会及新产品发布会,隆重发布了四大创新产品(两个系列硬件加速产品(SC-OPS,SC-VPX)、两个IP库(FDNN,FBLAS))及三大解决方案(深度学习解决方案、高性能计算及数字信号处理解决方案、边缘计算解决方案)。  抢先

2、布局异构计算  杭州加速云信息技术有限公司创始人兼CEO邬刚是学习通信出身,最早跟随中国程控电话交换机之父邬江兴院士进入通信行业。两年之后,他加入了华为负责芯片设计。2007年开始创业,创办过3家公司,对CPU总线、多核处理器的发展有着清晰的理解。经过多年的积累和对未来市场的预估,2015年9月,邬刚先生创办了加速云。    杭州加速云信息技术有限公司创始人兼CEO邬刚  加速云的解决方案可以广泛应用于深度学习、人工智能、金融、机器视觉等领域。目前已与阿里、腾讯、科大讯飞等多家企业开展深入合作。  “加速云是从技术上推导出来的一家公司,起源于2014年我们家迎来第一个小朋友,在陪产过程中形

3、成的一个想法。”邬刚先生提及创办加速云的心路历程,“在2014年,按照英特尔的发展,下一步一定是异构,我们当时认为异构,要么用GPU,要么用FPGA。英特尔在GPU上有一次失败尝试,加上GPU自身功耗太高等问题,FPGA会是异构计算的一个理想选择。”  事实上,在加速云诞生之初已经拥有强大的技术储备。基于FPGA来做异构计算是邬刚先生2014年4月就想出来的计划,直等到2014年10月英特尔在IDF大会上宣布x86+FPGA处理器,他认为这个机会点来了,11月份正式开始研究,到2015年4月,研发出了第一代原型机,2015年9月开始量产,加速云公司随之注册。  在深度学习中,做好算法只完成

4、了1/3,在这个团队里面,既需要很强的实现算法的能力,还要有非常强的工程化能力,这种工程化的能力,包括接口和实现量产的能力。”我们知道做出一个东西很容易,但是做好还是挺难的。我们有一个非常小的板卡,迭代了四代,每一次迭代都要花百万人民币,因为硬件投入很大,每次迭代有可能只改了一点,我们发现未来可能存在的一些风险问题,就把它改掉,这是我们团队特别的地方。我们是一个工程化能力非常强的团队,整体技术行不行是我们最重要的考量。”邬刚先生介绍。  基于FPGA的异构计算是趋势  目前处于AI大爆发时期,异构计算的选择主要在FPGA和GPU之间。尽管目前异构计算使用最多的是利用GPU来加速,FPGA作

5、为一种高性能、低功耗的可编程芯片,在处理海量数据时,FPGA计算效率更高,优势更为突出,尤其在大量服务器部署时,隐形的运营成本会得到显著降低。  此外,低延迟、确定性延迟,也是FPGA天然的优势。  邬刚表示:“人工智能已经进入我们的生活,但是未来发展还存在瓶颈,需要硬件技术和算法方面的突破。异构计算是计算架构的未来趋势,而FPGA是实现异构计算的完美选择。加速云创新的异构计算加速平台解决方案,具有高性能、高效率、低延时特性以及可编程性和远程可重构能力,非常适合云上的弹性业务的需求。我们希望能够通过我们的技术,帮助更多的企业实现深度学习,在大数据时代赢得先机。”  全球最高性能FPGA加速

6、卡  SC-OPS是加速云推出的全球首张IntelStratix10FPGA加速卡,采用Intel最新14nm工艺的Stratix10GX2800FPGA器件,单板支持12个200维双精度线性方程求解,运算时间为466us,为x86系统60~120倍性能;单卡可以实现4500帧/S以上图像分类(采用AlexNet卷积神经网络模型,int16)。    SC-OPS可以广泛应用于数据中心、云计算、机器视觉、深度学习、高性能计算、仿真、金融等领域。  全球最高集成度VPX业务卡  SC-VPX是全球计算密度最高的VPX刀片加速平台,采用IntelStratix10GX2800器件,兼容GX16

7、50,构造业界先进、灵活、高效的信号处理和深度学习架构,主要定位高校研究所等单位的雷达、通信、深度学习相关领域的产品原型快速搭建和算法开发与应用。    6U整机可以支持92T/50TFLOPS单精度浮点处理能力,整机可以通过交换板互联构筑更大的系统;支持OpenCL、Verilog开发,支持高性能计算库。  RTL级深度学习加速库  深度学习加速库FDNN是国内首个支持通用卷积神经网络的FPGA加速库,基于RTL级代码

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。