IBM发布POWER 9处理器,专为AI、加速计算设计.doc

IBM发布POWER 9处理器,专为AI、加速计算设计.doc

ID:27494371

大小:342.00 KB

页数:10页

时间:2018-12-04

IBM发布POWER 9处理器,专为AI、加速计算设计.doc_第1页
IBM发布POWER 9处理器,专为AI、加速计算设计.doc_第2页
IBM发布POWER 9处理器,专为AI、加速计算设计.doc_第3页
IBM发布POWER 9处理器,专为AI、加速计算设计.doc_第4页
IBM发布POWER 9处理器,专为AI、加速计算设计.doc_第5页
资源描述:

《IBM发布POWER 9处理器,专为AI、加速计算设计.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、IBM发布POWER9处理器,专为AI、加速计算设计  日前IBM发布POWER9处理器是基于14nm工艺制程,并且专为AI、加速计算设计,相比X86系统,可缩短在机器学习框架下的训练时间。IBM表示设计之初的理念就是未来为AI服务,且率先使用了PCIe4.0技术。  近日IBM在纽约发布了最新设计的POWER9处理器,以及装有POWER9的新一代PowerSystems服务器——AC922。2017年下半年以来,针对大数据和云计算,IBM发布了多款硬件。值得一提的是,AC922是IBM第一款针对企业级AI市场发布的新品,该系统专门为人工智能、加速计算而设计,根据其内部测试数据,

2、相比X86系统,可将深度学习框架下将训练时间缩短至原来的1/4。    IBM大中华区科技合作部副总裁MaryCoucher表示,早四年前IBM开始设计POWER9时,就在整个过程中都考虑了如何来为AI服务。  具体到数据上,跟x86相比,POWER9的线程增加2倍,I/O带宽增加5倍,CPU和GPU之间的内存共享提升至2TB,且率先使用了PCIe4.0技术的,速度比基于PCIeGen3的x86快了2倍多。  基于POWER9的AC922,则嵌入了PCI-Express4.0、新一代NVIDIA的NVLink及OpenCAPI,在加速数据传送方面,超越了x86数倍,能够大幅提升C

3、hainer、TensorFlow及Caffe等人工智能框架的性能,并加速KineTIca等数据库。    记者了解到,正式产品已于本月22日上市。  以下为针对该新品在人工智能及应用方面的采访,受访人有IBM副总裁、大中华区硬件系统部总经理侯淼,IBM大中华区科技合作部副总裁MaryCoucher,IBM杰出工程师、大中华区硬件系统部首席技术官李永辉等,记者在不改变原意的基础上,做了增删。关于人工智能  提问:为什么针对AI?使用场景有哪些?  侯淼:大家好奇为什么这次发布针对AI,机器对AI和机器不对AI到底有什么差别。  在过去IBM很多产品都是针对传统的工作负载,像大家在

4、银行做银行交易一样,可能手机上有一个消费,你买了一本书,花了30块钱,这笔交易会留到银行和你的账户,会访问Database,会从你的银行的账户减掉30块钱,然后确认把这个钱给商家,这样的输入就完成了,整个过程是串行的程序来保证数据一致性,不可能并行起来。对后台机器的要求在于I/O、内存和CPU之间通路的完整性,通过软件要使这个交易完整,我们传统叫针对OnlineTransacTIon系统。  什么是AI的场景?举一个很有意思的例子,比如说在一个视频上识别一个人,有几个步骤来做,第一,要让一个机器知道要找的这个人的面貌特征,知道的过程就要用深度学习训练。这里有几个很关键的点,识别时

5、间越短越好,越快越好,越准越好。  IBM这一套技术在进行训练的时候,有一个深度学习的的一套框架,这里包括我们改进了NVLINKGPU-CPU互连加速技术、CAPII/O加速及内存一致性访问技术、水平扩展等,以前只能在一台机器,可能是十个小时,如果能够十台机器一块儿来做的,有可能是1个小时,这是IBM的优势。  接下来当你进行识别的时候,发现如果一个视频里有十个人,这个识别不是不需要从左边找第一个人到右边,而是会同时去看这些人。如果有一百个人,也会同时看一百个人到底这里面能看多少人,这取决于GPU的能力,GPU的数量越多,并发的密度越高,能力越强。  如果是高清图像的话要求你的分

6、辨率很高,这就跟GPU和CPU的内存相关,内存越大,你所得到的数据越高,从而这个比对的精准度会越快。IBM这次发布的AC922,第一个特征就是支持在2U的设备里支持6个GPU,这使识别的速度会大幅度提高。  第二是跟NVIDIA合作,采用了新一代NVLink,它把CPU和GPU相连接,好处在于,进行高清识别的时候,当GPU内存不够的话可以访问主内存,这是非常大的优势。高清识别的时候,很多情况下GPU的内存不够,会限制访问速率,或者牺牲速度增加质量,或者牺牲质量增加速度,而在AC922不需要这样来做。  提问:近4倍的超越对于芯片来讲是一个什么概念?AI现在的发展跟软件有很大关系,

7、软件的倍数会更多,是否可以介绍一下这一点?  李永辉:人工智能不单单是硬件平台,还涉及到软件的堆栈。AC922是为了人工智能而设计的,在2个U的密度里放了最多6个GPU,可以大大加速很多人工智能框架。  我们采用最新的GPU技术——V100,业界最顶级的,有双密度、单密度、半密度的算法,有效加速人工智能训练过程,也可以做一个性能的提升。在V100GPU里有TensorCore的设计,专门针对人工智能权重算法,实现并行度的加速。  在这个基础上做了软件堆栈,这个堆栈是去年年底发布的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。