欢迎来到天天文库
浏览记录
ID:21707148
大小:13.83 MB
页数:45页
时间:2018-10-18
《深度学习-0417》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、深度学习及其硬件加速报告提纲深度学习概念及其算法1深度学习硬件加速方式2典型神经网络芯片介绍3人工智能——为机器赋予人的智能人工智能、机器学习与深度学习人工智能机器学习深度学习1950's1960's1970's1980's1990's2000's2010's模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的技术科学;让机器象人一样思考应用:国际跳棋程序人工智能的分支,研究机器模拟或实现人类的学习行为,以获取新的知识技能,并改善自身性能应用:垃圾邮件过滤一种机器学习方法,模拟人脑机制解释数据,通
2、过组合低层特征形成更加抽象的高层属性类别或特征应用:谷歌视频寻猫训练阶段:输入大量带标注动物图片,训练网络学会辨别推理阶段:输入未标注图片提取图片内容的低层特征,如轮廓分析提取高层的结构特征,如四肢分析获得顶层的抽象概念,如动物类型基于前期训练结果,预测图片内容深度学习的流程深度学习典型算法为卷积神经网络,以2层卷积为例,算法为:输入图像与滤波器、偏置进行卷积,产生卷积层的特征映射图卷积层特征映射图经求和,加权值,偏置,函数处理得到采样层采样层重复上述流程处理后产生新的采样层全连接层提取归类获得足够
3、好的高层特征表达信息深度学习的算法一层卷积学到的特征是局部的,层数越高,特征就越全局化。卷积和采样具体过程为:卷积过程:滤波器fx卷积输入图像后,加偏置项bx,得卷积层Cx采样过程:每邻域4个像素求和得一个像素,通过标量Wx+1加权,加偏置项bx+1,通过sigmoid激活函数产生缩小4倍的特征图Sx+1深度学习的算法深度学习开源框架层出不穷,用来实现深度学习算法避免重复工作,降低算法门槛Google、Microsoft、Facebook等均发布深度学习框架谷歌TensorFlow占绝对优势强大的人
4、工智能研发水平、快速的迭代更新深度学习的开源框架谷歌2015年底发布开源深度学习框架TensorFlowTensor(张量):多维数组在高维空间的数学运算Flow(流):基于数据流图的计算TensorFlow关键特性代码简洁多语言支持分布式算法执行效率高移值灵活伸缩性好支持多种神经网络算法深度学习的开源框架报告提纲深度学习概念及其算法1深度学习硬件加速方式2典型神经网络芯片介绍3深度学习硬件加速方式当前深度学习硬件加速方式主要有CPU、GPU、FPGA、DSP、ASIC深度学习硬件加速方式——CPU
5、通用级加速方式,高度灵活性和易用性架构上有先天弱势运算能力较弱访存带宽受限代表:IntelXeonPhi系列芯片、高通骁龙820案例:GoogleBrain项目用16000个CPUCore的并行计算平台保证训练算法速度,通过观看YouTube的视频,识别出猫SIMD方式,计算能力强,并行度支持好通用性,并非针对深度学习运行效率受影响能耗仍较大代表:NVIDIATeslaP100GPU案例:基于GPU深度学习加速受到谷歌、微软、IBM以及百度等企业青睐;在汽车和先进驾驶辅助系统(ADAS)方面与众多车
6、企进行合作深度学习硬件加速方式——GPU能效较高且硬件配置灵活顶级GPU性能的1/5,能效相当相比CPU,性能提升1个数量级,能效提升2个数量级增长的门资源和内存带宽带来更大的设计空间省去ASIC方案所需流片过程代表:DeephiTech(深鉴科技)、Xilinx、Altera案例:微软用AlteraFPGA实现基于卷积神经网络的数据中心加速,效能优异。算法用于图像分类、图像识别及自然语言处理深度学习硬件加速方式——FPGA用传统SIMD/DSP架构来适配运算逻辑作修改,以适用卷积神经网络对深度学习
7、全面计算能力支持不足核心数量较少,并行性支持较差代表:Cadence的TensilicaVisionP5处理器、Synopsys的EV处理器、中星微视频处理芯片星光智能一号案例:星光智能一号广泛应用于高清视频监控、智能驾驶辅助、无人机、机器人等嵌入式机器视觉领域深度学习硬件加速方式——DSP阻碍深度学习发展的瓶颈仍是算法速度传统处理器需要多条指令才能完成一个神经元的处理ASIC根据深度学习算法定制:处理效率、能效均最高代表:Cambricon(寒武纪科技)DianNao芯片、谷歌的TPU芯片、Hor
8、izonRobotics(地平线机器人)BPU芯片案例:基于TPU的AlphaGo与围棋冠军李世石人机大战,总比分4:1获胜深度学习硬件加速方式——ASIC深度学习硬件加速方式比较加速方式优点缺点CPU通用结构、可独立工作通用性导致效率和能效比低GPU强大的并行计算能力通用性导致效率受影响、能耗大FPGA灵活性好、设计空间大、省去流片过程效能与功耗上不能更紧密适配算法、成本高DSP改动小、计算能力较高缺乏深度学习全面计算能力、核心数量较少,并行性支持较差ASIC能效比
此文档下载收益归作者所有