关于FPGA与深度学习的关系探析详解.doc

关于FPGA与深度学习的关系探析详解.doc

ID:27851006

大小:64.50 KB

页数:8页

时间:2018-12-06

关于FPGA与深度学习的关系探析详解.doc_第1页
关于FPGA与深度学习的关系探析详解.doc_第2页
关于FPGA与深度学习的关系探析详解.doc_第3页
关于FPGA与深度学习的关系探析详解.doc_第4页
关于FPGA与深度学习的关系探析详解.doc_第5页
资源描述:

《关于FPGA与深度学习的关系探析详解.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、关于FPGA与深度学习的关系探析详解  人工智能的风潮从技术一路蔓延到硬件,让“芯片”成为今年行业里盛极一时的主题。人们关注通用芯片领域里CPU和GPU不断刷新的基准(benchmark),更对专用芯片(ASIC)领域不同场景下不断问世的解决方案表示出了空前的热情。  而众所周知,在专用芯片与通用芯片中间,还有一个更为灵活,也更为神秘的领域:FPGA。无论是英特尔天价的收购还是微软与IBM雄心勃勃的计划,都让人对其更加好奇。而“万能芯片”的名称,以及多样化的职责范围:它可以是智能手机里不起眼的一个小组件,也可以是数千美金一块的开发板,也让人对其真面目更加疑惑。  FPG

2、A与深度学习的关系究竟是什么?它适合加速何种类型的运算?适合应用于何种场景?6月,机器之心采访了美国伊利诺伊大学香槟分校电气与计算机工程系(UIUCECE)教授、深度学习算法硬件加速解决方案创业公司InspiritIoT创始人陈德铭,与他聊了聊“万能芯片”FPGA在深度学习领域的用法。陈教授于近期宣布兼任国内计算机视觉领域创业公司触景无限的首席科学家。  以下为采访实录。  机器之心:从算法的角度,FPGA适合于加速哪些运算?  FPGA的优势在于可定制化的并行。它可以为了特定算法专门定制逻辑单元。例如,算法中需要完成一个开三次方的运算,在通用芯片上需要一长串指令实现它

3、,但是在FPGA上可以为这个特定运算设计一个单元。  定制化的一个“极限”的例子是,如果能够把神经网络中的参数全部二值化、特征图(featuremap)也全部二值化,那么甚至可以不用乘法器,而是用异或门(XORgate)完成计算,会有异常强大的表现。即使不全部二值化,因为全部二值化会让准确度明显下降,只要合理使用各种低位宽的运算,仍可以让FPGA大放异彩。比如在我们最近和IBM合作的ELB-NN项目中,我们可以在功耗低于5瓦的情形下,让神经网络在FPGA上的算力达到10.3TOPS,同时依然维持非常高的准确度。  另一个例子是微软的BrainwaveFPGA项目,通过使

4、用特殊的8-bit的浮点运算,可以在高容量的FPGA上达到40TOPS。  值得一提的是,LSTM等神经网络每一步操作都很相似,这种整体运算过程是序列的算法也非常适用于用FPGA进行加速。FPGA非常擅长处理流数据,可以设计流水线机制,使得在运算过程中不需要将中间数据存入内存而是直接送到下一步进行操作。  机器之心:相比于其他芯片,FPGA在实现深度学习模型时有哪些结构带来的优势?  FPGA的引脚比一般的芯片多,同时它的逻辑单元可以完全根据算法要求来重组从而产生定制化的数据通路(datapath),因此非常适合处理大批量流数据。它不像GPU一样需要反复调取片外存储中的

5、数据,理想状态时,只要数据一次性流进去再流出来,算法就完成了,因此,FPGA非常适合具有低延迟需求的任务。  另外FPGA的速度快、功率低的特点也让它在能耗方面相比于CPU、GPU也有很大优势。  比如我们在FPGA上实现了长期循环卷积网络(Long-termRecurrentConvoluTIonalNetwork),它的速度(latency)比GPU快3.1倍,FPGA的功率比GPU小5.6倍,最终整体能耗降低17倍左右。  机器之心:从行业的角度,FPGA都能够用于哪些机器学习与深度学习任务的加速?  在终端,有些自动驾驶公司的车上系统中就采用了FPGA完成一些实

6、时检测识别任务。例如,我曾经代表UIUC与小鹏汽车的副总裁、机器学习专家谷俊丽女士交流,她提到,FPGA可以凭借信号处理和低能耗方面的优势,成为一个可靠的第二系统,在汽车的第一系统出现失误的时候,作为安全模式介入进来。IoT方面的应用就更多了,无论是安防还是智能家居,FPGA都会有机会进入市场。  在云端,也有结合FPGA的巨大空间。之前,微软的ProjectCatapult就搭建起了大规模的FPGA云服务器。现在Catapult正在运行搜索和数据存储方面的运算,同时,他们也在积极地思考如何把机器学习运算部署在上面,包括是否能将FPGA作为其Azure云的后端支持。亚马

7、逊AWS的FPGA云计算已经很有规模了,并且一直在大力推动之中。最近,国内创业公司深鉴也开始结合华为的云端FPGA来进行深度学习算法的加速,特别在基于LSTM的语音识别上非常有优势。  机器之心:能否介绍一下使用高层次综合(HLS)自动生成寄存器级(RTL)实现与手工用硬件描述语言(HDL)进行实现的区别?  对于深度学习相关算法来说,HLS是有优势的。  当你阅读用高层语言描述的深度学习模型时,你会发现模型是有规律的。比如,卷积操作在C语言里就是一个六层的嵌套循环。此时我就可以针对这个循环开发一个IP核,确定如何进行流水线设计(pipe

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。