人工智能(AI)芯片产业生态梳理.doc

人工智能(AI)芯片产业生态梳理.doc

ID:27842006

大小:808.50 KB

页数:29页

时间:2018-12-06

人工智能(AI)芯片产业生态梳理.doc_第1页
人工智能(AI)芯片产业生态梳理.doc_第2页
人工智能(AI)芯片产业生态梳理.doc_第3页
人工智能(AI)芯片产业生态梳理.doc_第4页
人工智能(AI)芯片产业生态梳理.doc_第5页
资源描述:

《人工智能(AI)芯片产业生态梳理.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、人工智能(AI)芯片产业生态梳理1  从功能来看,可以分为Training(训练)和Inference(推理)两个环节。  Training环节通常需要通过大量的数据输入,或采取增强学习等非监督学习方法,训练出一个复杂的深度神经网络模型。训练过程由于涉及海量的训练数据和复杂的深度神经网络结构,运算量巨大,需要庞大的计算规模,对于处理器的计算能力、精度、可扩展性等性能要求很高。目前在训练环节主要使用NVIDIA的GPU集群来完成,Google自主研发的ASIC芯片TPU2.0也支持训练环节的深度网络加速。  Inference环节指利用训练好的模型,使用新

2、的数据去“推理”出各种结论,如视频监控设备通过后台的深度神经网络模型,判断一张抓拍到的人脸是否属于黑名单。虽然Inference的计算量相比Training少很多,但仍然涉及大量的矩阵运算。在推理环节,GPU、FPGA和ASIC都有很多应用价值。  从应用场景来看,可以分成“Cloud/DataCenter(云端)”和“Device/Embedded(设备端)”两大类。  在深度学习的Training阶段,由于对数据量及运算量需求巨大,单一处理器几乎不可能独立完成一个模型的训练过程,因此,Training环节目前只能在云端实现,在设备端做Training

3、目前还不是很明确的需求。  在Inference阶段,由于目前训练出来的深度神经网络模型大多仍非常复杂,其推理过程仍然是计算密集型和存储密集型的,若部署到资源有限的终端用户设备上难度很大,因此,云端推理目前在人工智能应用中需求更为明显。GPU、FPGA、ASIC(GoogleTPU1.0/2.0)等都已应用于云端Inference环境。在设备端Inference领域,由于智能终端数量庞大且需求差异较大,如ADAS、VR等设备对实时性要求很高,推理过程不能交由云端完成,要求终端设备本身需要具备足够的推理计算能力,因此一些低功耗、低延迟、低成本的专用芯片也会

4、有很大的市场需求。  按照上述两种分类,我们得出AI芯片分类象限如下图所示。    除了按照功能场景划分外,AI芯片从技术架构发展来看,大致也可以分为四个类型:  1、通用类芯片,代表如GPU、FPGA;  2、基于FPGA的半定制化芯片,代表如深鉴科技DPU、百度XPU等;  3、全定制化ASIC芯片,代表如TPU、寒武纪Cambricon-1A等;  4、类脑计算芯片,代表如IBMTrueNorth、westwell、高通Zeroth等。AI芯片产业生态2  从上述分类象限来看,目前AI芯片的市场需求主要是三类:  1、面向于各大人工智能企业及实验室

5、研发阶段的Training需求(主要是云端,设备端Training需求尚不明确);  2、InferenceOnCloud,Face++、出门问问、Siri等主流人工智能应用均通过云端提供服务;  3、InferenceOnDevice,面向智能手机、智能摄像头、机器人/无人机、自动驾驶、VR等设备的设备端推理市场,需要高度定制化、低功耗的AI芯片产品。如华为麒麟970搭载了“神经网络处理单元(NPU,实际为寒武纪的IP)”、苹果A11搭载了“神经网络引擎(NeuralEngine)”。    (一)Training训练  2007年以前,人工智能研究受

6、限于当时算法、数据等因素,对于芯片并没有特别强烈的需求,通用的CPU芯片即可提供足够的计算能力。AndrewNg和JeffDean打造的GoogleBrain项目,使用包含16000个CPU核的并行计算平台,训练超过10亿个神经元的深度神经网络。但CPU的串行结构并不适用于深度学习所需的海量数据运算需求,用CPU做深度学习训练效率很低,在早期使用深度学习算法进行语音识别的模型中,拥有429个神经元的输入层,整个网络拥有156M个参数,训练时间超过75天。  与CPU少量的逻辑运算单元相比,GPU整个就是一个庞大的计算矩阵,GPU具有数以千计的计算核心、可

7、实现10-100倍应用吞吐量,而且它还支持对深度学习至关重要的并行计算能力,可以比传统处理器更加快速,大大加快了训练过程。    从上图对比来看,在内部结构上,CPU中70%晶体管都是用来构建Cache(高速缓冲存储器)和一部分控制单元,负责逻辑运算的部分(ALU模块)并不多,指令执行是一条接一条的串行过程。GPU由并行计算单元和控制单元以及存储单元构成,拥有大量的核(多达几千个)和大量的高速内存,擅长做类似图像处理的并行计算,以矩阵的分布式形式来实现计算。同CPU不同的是,GPU的计算单元明显增多,特别适合大规模并行计算。    在人工智能的通用计算G

8、PU市场,NVIDIA现在一家独大。2010年NVIDIA就开始布局人工智能产品

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。