IBM全新AI芯片设计登上Nature,解决GPU的算力瓶颈.doc

IBM全新AI芯片设计登上Nature,解决GPU的算力瓶颈.doc

ID:27516742

大小:402.50 KB

页数:5页

时间:2018-12-04

IBM全新AI芯片设计登上Nature,解决GPU的算力瓶颈.doc_第1页
IBM全新AI芯片设计登上Nature,解决GPU的算力瓶颈.doc_第2页
IBM全新AI芯片设计登上Nature,解决GPU的算力瓶颈.doc_第3页
IBM全新AI芯片设计登上Nature,解决GPU的算力瓶颈.doc_第4页
IBM全新AI芯片设计登上Nature,解决GPU的算力瓶颈.doc_第5页
资源描述:

《IBM全新AI芯片设计登上Nature,解决GPU的算力瓶颈.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、IBM全新AI芯片设计登上Nature,解决GPU的算力瓶颈  【导读】:现如今的人工智能的神经网络与GPU密不可分,但是GPU的算力对于未来神经网络的发展是不够用的,好在IBM全新AI芯片设计,能够解决GPU的算力瓶颈。    IBM近日提出的全新芯片设计可以通过在数据存储的位置执行计算来加速全连接神经网络的训练。研究人员称,这种「芯片」可以达到GPU280倍的能源效率,并在同样面积上实现100倍的算力。该研究的论文已经发表在上周出版的Nature期刊上。  用GPU运行神经网络的方法近年来已经为人工智能领域带来了惊人的发展,然而两者的组合其实并不完

2、美。IBM研究人员希望专门为神经网络设计一种新芯片,使前者运行能够更快、更有效。  直到本世纪初,研究人员才发现为电子游戏设计的图形处理单元(GPU)可以被用作硬件加速器,以运行更大的神经网络。  因为这些芯片可以执行大量并行运算,而无需像传统的CPU那样按顺序执行。这对于同时计算数百个神经元的权重来说特别有用,而今的深度学习网络则正是由大量神经元构成的。  虽然GPU的引入已经让人工智能领域实现了飞速发展,但这些芯片仍要将处理和存储分开,这意味着在两者之间传递数据需要耗费大量的时间和精力。这促使人们开始研究新的存储技术,这种新技术可以在同一位置存储和

3、处理这些权重数据,从而提高速度和能效。  这种新型存储设备通过调整其电阻水平来以模拟形式存储数据,即以连续规模存储数据,而不是以数字存储器的二进制1和0。而且因为信息存储在存储单元的电导中,所以可以通过简单地让电压通过所有存储单元并让系统通过物理方法来执行计算。  但这些设备中固有的物理缺陷会导致行为的不一致,这意味着目前使用这种方式来训练神经网络实现的分类精确度明显低于使用GPU进行计算。  负责该项目的IBMResearch博士后研究员StefanoAmbrogio在此前接受SingularityHub采访时说:「我们可以在一个比GPU更快的系统上

4、进行训练,但如果训练操作不够精确,那就没用。目前为止,还没有证据表明使用这些新型设备和使用GPU一样精确。」  但随着研究的进展,新技术展现了实力。在上周发表在《自然》杂志上的一篇论文中(Equivalent-accuracyacceleratedneural-networktrainingusinganaloguememory),Ambrogio和他的同事们描述了如何利用全新的模拟存储器和更传统的电子元件组合来制造一个芯片,该芯片在运行速度更快、能耗更少的情况下与GPU的精确度相匹配。  这些新的存储技术难以训练深层神经网络的原因是,这个过程需要对每

5、个神经元的权重进行上下数千次的刺激,直到网络完全对齐。Ambrogio说,改变这些设备的电阻需要重新配置它们的原子结构,而这个过程每次都不相同。刺激的力度也并不总是完全相同,这导致神经元权重不精确的调节。  研究人员创造了「突触单元」来解决这个问题,每个单元都对应网络中的单个神经元,既有长期记忆,也有短期记忆。每个单元由一对相变存储器(PCM)单元和三个晶体管和一个电容器的组合构成,相变存储器单元将重量数据存储在其电阻中,电容器将重量数据存储为电荷。  PCM是一种「非易失性存储器」,意味着即使没有外部电源,它也保留存储的信息,而电容器是「易失性的」,

6、因此只能保持其电荷几毫秒。但电容器没有PCM器件的可变性,因此可以快速准确地编程。  当神经网络经过图片训练后可以进行分类任务时,只有电容器权重被更新了。在观察了数千张图片之后,权重会被传输到PCM单元以长期存储。  PCM的可变性意味着权重数据的传递可能仍然会存在错误,但因为单元只是偶尔更新,因此在不增加太多复杂性的情况下系统可以再次检查导率。「如果直接在PCM单元上进行训练,就不可行了。」Ambrogio表示。  为了测试新设备,研究人员在一系列流行的图像识别基准中训练了他们的神经网络,并实现了与谷歌的神经网络框架TensorFlow相媲美的精确度

7、。但更重要的是,他们预测最终构建出的芯片可以达到GPU280倍的能源效率,并在同样平方毫米面积上实现100倍的算力。  值得注意的是,研究人员目前还没有构建出完整的芯片。在使用PCM单元进行测试时,其他硬件组件是由计算机模拟的。Ambrogio表示研究人员希望在花费大量精力构建完整芯片之前检查方案的可行性。  他们使用了真实的PCM设备——因为这方面的模拟不甚可靠,而其他组件的模拟技术已经成熟。研究人员对基于这种设计构建完整芯片非常有信心。  「它目前只能在全连接神经网络上与GPU竞争,在这种网络中,每个神经元都连接到前一层的相应神经元上,」Ambro

8、gio表示。「在实践中,很多神经网络并不是全连接的,或者只有部分层是全连接的。」  交叉开关非

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。